Re: [情報] 50美元訓練出媲美DeepSeek R1

作者DrTech (竹科管理處網軍研發人員)

標題Re: [情報] 50美元訓練出媲美DeepSeek R1

時間Fri Feb 7 08:14:36 2025

※ 引述《LimYoHwan (gosu mage)》之銘言： : 標題： : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : 來源： : Futu : 網址： : https://tinyurl.com/ydrtdbu8 : 內文： : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : Flash Thinking Experimental提煉出來的。 : https://i.imgur.com/kFg9GjU.jpeg : 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1 : 。 : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1 : 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。 : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力 : ，甚至可以媲美 Reinforcement Learning（強化學習）。 : OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好 : 的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？ : S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法： : 核心思想： : 如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？ : 方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率 : ！ : 結果證明，這種方法比 OpenAI o1-preview 還要好！ : 最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍 : 然很強！ : 此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。 : 論文下載 : https://arxiv.org/pdf/2501.19393 連結或內文，完全是錯的。根本是腦殘媒體在亂寫。與論文事實不符。先說論文結論：模型表現：經過不斷的做實驗試錯，終於從59000筆訓練資料中，找到一組1000筆AI訓練資料，可以在"部分考卷"上贏 OpenAI的一個很爛的模型，o1-preview。其他考卷考出來的分數，依然慘輸給 deepseek-R1，ChatGPT-o1。成本：不到50美元。也是只看 fine-tune 1000題，一次的成本。而且，試了不知道幾次，終於找到一次，可以在部分考卷上贏一個很爛的模型。媒體文章中，忽略不計的成本，至少包含： base模型訓練的成本(至少占成本99%) 研究人員不斷試錯找1000題的成本。多組1000題，再用 Gemini 模型，產生fine-tune資料的成本。其他錯誤資訊，媒體的內文寫：研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0。完全錯誤。原始論文寫：先準備 59000筆訓練資料，在不斷的用各種方式，選1000筆資料，再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。真的要亂寫，也要寫成蒸餾 Qwen2.5-32B的能力，而不是蒸餾 Gemini。而且這種做法嚴格來說不叫蒸餾，叫fine-tune微調結論：研究沒問題，找到了一種成本較低的流程，可產生可思考模型。但效果很一般。一堆外行人，連論文都不看，在造假新聞。媲美OpenAI-o1，deepseek-r1，連論文都沒這樣寫，純媒體造假。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣) ※ 文章網址: https://webptt.cc/bbs/Stock/M.1738887278.A.575.html

推文 (74)

推 fedona 股版人看不懂英文 02/07 08:17

→ cafein 讚 02/07 08:17

推 herculus6502 反正這裏是股版 02/07 08:36

推 GOOGLEISGOD 專業 02/07 08:42

推 saiiys https://youtu.be/yD5Zdk79X68?si=EABsvto1BFTIzVA8 02/07 08:45

推 AGODC 這就如同酒精釀造工藝，一般不懂的人認知上它就是某 02/07 08:46

→ AGODC 蒸餾原理，只是有加上一些前後加工的工序，本質上對 02/07 08:46

→ AGODC 一般人來說用「蒸餾」這個辭最好理解啊，未來這種類 02/07 08:46

→ AGODC 蒸餾或前後資料篩選再tune的東西會一籮筐，前面幾個 02/07 08:46

→ AGODC 還分得出來差異，到後面出來幾百幾千個時，誰還分得 02/07 08:46

→ AGODC 出來用哪個方法？反而叫蒸餾是一般人最好理解的 02/07 08:46

推 aaa80563 不然為什麼一堆-0.06的噴上天 02/07 08:48

推 maxangel 台灣媒體就不讀書當然不會認真寫 02/07 08:50

推 Laviathan 蒸餾不一定是監督式學習，但微調是監督式學習，樓 02/07 08:50

→ Laviathan 上怎麼可以說都一樣叫蒸餾 02/07 08:50

→ wr 簡單來說只要你能從六萬筆資料中找到那1000筆資料 02/07 08:51

→ wr 你就可以弄出跟gemini很接近的能力 02/07 08:51

→ wr 也就是說如何找到那1000筆資料的技術應該可以賣錢 02/07 08:53

推 dani1992 按你描述是從Gemini蒸餾微調Qwen沒錯啊 02/07 08:54

→ wr 至於訓練出來的東西就隨便應用端去天馬行空了 02/07 08:54

推 gift1314520 笑不給他資料庫看他怎麼學習 02/07 08:58

推 LDPC 大大建議你自刪這就是蒸餾。是你自己不懂 02/07 09:01

推 p122607 這也是蒸餾的一種… 02/07 09:05

噓 Lowpapa 整篇誤導 02/07 09:06

推 laidawn 推，看不懂 02/07 09:06

推 LDPC 作者自己paper都說 1000題從gemini thinking distil 02/07 09:08

→ LDPC l 02/07 09:08

→ LDPC 這已經不是你第一次亂嗆結果自己搞錯=_= 02/07 09:09

→ LDPC paper 第一頁右下方就講distilled from gemini thi 02/07 09:10

→ LDPC nking experimental 02/07 09:10

推 ab4daa 穩 02/07 09:12

推 kungwei 專業給推 02/07 09:13

推 y800122155 貼出來騙人下車的啊 02/07 09:13

推 LDPC 哪來專業..=_= 02/07 09:14

推 oopFoo 必須推。s1來蹭r1的。s1論文根本就不實際，也不實用 02/07 09:27

推 oopFoo s1這篇論文只是來騙篇數的。phd的悲哀。 02/07 09:32

→ emind 論文主旨是test-time compute 也放在標題了。Ilya 02/07 09:40

→ emind 在2024 Neurips 也講inference time compute. 02/07 09:40

→ emind 宣傳成本什麼的很好笑 02/07 09:41

→ DrTech 這篇論文的distilled意思，與前幾年大家在做transfo 02/07 10:14

→ DrTech rmer模型時的蒸餾，完全不同意思。是違反學術常規定 02/07 10:14

→ DrTech 義，自創的定義，意思是用Gemini 模型，生成新的訓 02/07 10:14

→ DrTech 練資料。硬扯沒意義，論文實際上跑出來的分數就是大 02/07 10:14

→ DrTech 輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫 02/07 10:14

→ DrTech 。 02/07 10:14

推 Denny224 推一個這才是認知中的學術研究 02/07 10:15

→ DrTech 我對於研究成果沒有否定，但新聞媒體亂報也是事實。 02/07 10:16

→ DrTech 蒸餾模型model distillation本來是模型權重數量壓縮 02/07 10:23

→ DrTech 的一種技術。結果這篇文章用的蒸餾，意思是用模型生 02/07 10:23

→ DrTech 成訓練用的文字資料，不是學術界正式的用語。所以目 02/07 10:23

→ DrTech 前只能放在arxiv，連正式的學術審稿都沒過。 02/07 10:23

→ DrTech 基底模型是Qwen2.5-32B，然後少量Gemini模型生成資 02/07 10:30

→ DrTech 料微調參數，再怎麼蒸餾，硬要扯，也是在蒸餾Qwen2. 02/07 10:30

→ DrTech 5-32B的能力。 02/07 10:30

→ holien 現在學術研究為了比快，有人會先放在arrive，宣示 02/07 10:31

→ holien 自己的成果。 02/07 10:31

→ DrTech 蒸餾老半天，結果還是輸deepseek-R1阿。論文都寫了 02/07 10:31

→ DrTech 。 02/07 10:31

→ DrTech 研究貢獻也不在 "媲美deepseek-R1" 明明就輸很大， 02/07 10:38

→ DrTech 標題亂寫而已。 02/07 10:38

推 newyorker54 我書讀的不多 02/07 10:45

→ newyorker54 所以結論是deepseek r1繼續用？ 02/07 10:46

推 atpx 推 02/07 10:46

推 kissa0924307 結論NVDA續抱 02/07 11:04

推 stlinman 說個笑話李飛飛不懂學術界正式用語! 02/07 11:11

推 clou 白痴媒體真的多，不過想想也是因為有這些股市才能賺 02/07 11:12

噓 watashino 蒸餾沒錯啊但確實也是在fine tune 02/07 11:18

→ ImHoluCan 原來是Dr，專業 02/07 11:31

→ ImHoluCan Dr大真的專業的，很多人看新聞不自己去查一下 02/07 11:33

→ ImHoluCan 有人會不認識這Dr兄？還在那反駁Dr兄，以後好人就 02/07 11:36

→ ImHoluCan 越來越少人發文了 02/07 11:36

噓 HenryLin123 這咖我記得業內人士也在推面板股的，我有沒有記錯 02/07 11:56

→ HenryLin123 ？ 02/07 11:56

推 greprep 推專業良心 02/10 23:49