好的
google 要不要把昨天財報上的說750億設備支出
變成50美元支出?
李飛飛能直接表明蒸餾Google
Google 最好不知道還給你研究所蒸餾
那昨天Google 財報2025還要支出750億呢?
還是明天台灣派人去蒸餾meta Google chatGPT?
看看他們要不要給蒸餾
※ 引述《LimYoHwan》之銘言
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1
: 。
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:
: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率
: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
----
Sent from BePTT on my iPhone 16
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.141.220.124 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Stock/M.1738839278.A.133.html
推文 (204)
推
watashino
看ptt就知道我的獲利都從哪些人手上來的了
02/06 18:57
→
eeqqww112233
你有了解模型跟基礎設備的差異嗎…
02/06 19:00
推
Mosskappa
所以就是資本收割籌碼的手段,了解的就不會恐慌反
02/06 19:01
→
Mosskappa
而開心能補貨@@
02/06 19:01
推
bonny5566
大家都等抄答案就好
02/06 19:02
→
bonny5566
努力寫題的是白痴
02/06 19:02
推
PureAnSimple
我比較喜歡李冰冰 唯一支持
02/06 19:03
→
ImHoluCan
各位AI大師,要不要組ㄧ隊?
02/06 19:03
→
wr
李飛飛跟google很熟啦 都副總裁了 應該有講好吧
02/06 19:10
推
saiiys
https://youtu.be/3O7b2HZCXKM?feature=shared
02/06 19:12
→
zer0319
沒有一個頭後面要怎麼蒸餾,還是大家都在原地互相蒸
02/06 19:13
→
zer0319
?
02/06 19:13
推
duriamon
這波NV持續吃AI基建的大餅,因為目前AI發展除了大陸
02/06 19:16
→
duriamon
被鎖死,全部都用NV的CUDA,目前仍很難看到取代性。
02/06 19:16
→
duriamon
deep seek跟現在的開源鬼故事,反而是證明搞不好H10
02/06 19:16
→
duriamon
0那種5奈米晶片提供的算力及成本CP值就足夠了,怕是
02/06 19:16
→
duriamon
未必會一直需要增加晶體管密度。
02/06 19:16
→
zer0319
而且基建要算力、後續運作、實體終端也都要算力啊,
02/06 19:17
→
zer0319
又不是只有訓練需要
02/06 19:17
推
zerro7
我蒸餾你的蒸餾他的蒸餾 會不會後面變成閉環
02/06 19:18
→
duriamon
並不是單靠蒸餾,是新模型的架構以及訓練方法都開始
02/06 19:19
→
duriamon
跟2023年流行的原始方式不同,早期像GPT3、4根本就
02/06 19:19
→
duriamon
只是鸚鵡的增強版,而且還是很肥很胖要高額飼料錢的
02/06 19:19
→
duriamon
鸚鵡。
02/06 19:19
→
wr
我小時候也看過有人說pentium效能已經夠用了
02/06 19:21
→
duriamon
現在的進展就跟AlphaGo一開始需要人類老師手把手教
02/06 19:21
→
duriamon
後來自己跟自己下棋自己學是類似的情況,整天說蒸餾
02/06 19:21
→
duriamon
的根本搞不清楚狀況,笑死!
02/06 19:21
→
PTIMIKE
http://i.imgur.com/2LHAnz3.jpg
02/06 19:21
推
jfw616
pentium本來就夠用了
02/06 19:24
→
jfw616
win xp再戰20年不是問題
02/06 19:24
→
jfw616
大多數文書處理電腦…那個不是pentium就夠用了
02/06 19:24
→
duriamon
晶體管密度越密價格越貴,除非台積電降價,要不然連
02/06 19:24
→
duriamon
蘋果都吃不消,以為台積電會一直得利的我倒不認為,
02/06 19:24
→
duriamon
因為技術發展也是要看CP值的,這點OpenAI就是不良示
02/06 19:24
→
duriamon
範,你要錢要過頭大家都受不了。
02/06 19:24
→
jfw616
不夠用單純就是某些軟體一直修改
02/06 19:25
→
jfw616
才搞得不夠用
02/06 19:25
→
wr
原本一個房間大的大型主機變成擺在桌上的小方塊 這
02/06 19:25
→
wr
麼強的能力怎麼可能不夠用 難道你會需要比核武還複
02/06 19:25
→
wr
雜的計算嗎?
02/06 19:25
→
jfw616
我就舉例iphone4就好
02/06 19:26
→
jfw616
那時候我拿iphone4上ptt…l
02/06 19:26
→
jfw616
現在拿iphone16上ptt
02/06 19:26
推
good5755
李飛飛曾任google的副總裁 說不定google的模型就是
02/06 19:26
→
good5755
他一手策劃 這叫左手換右手
02/06 19:26
→
jfw616
到底差別在哪裡?
02/06 19:26
→
duriamon
問題是現在靠軟體設計模型的架構跟演算法進步直接讓
02/06 19:26
→
duriamon
需求卡在5奈米,你花大錢搞1-2奈米就變盤子了,呵呵
02/06 19:26
→
duriamon
!
02/06 19:26
推
Mosskappa
五代機夠用了不用開發六代了嗎,燒再多錢也要搞啊
02/06 19:27
→
Mosskappa
,軍備競賽就是這樣
02/06 19:27
→
Mosskappa
真正的AI不在語言模型
02/06 19:27
→
jfw616
其實花大錢當盤子沒差…其實以70億人口平均下去
02/06 19:27
→
jfw616
根本不算多
02/06 19:27
→
jfw616
這些科技公司都是以全球70億人口規模去計算的
02/06 19:28
推
AudiA4Avant
沒有所謂的夠用這種事的
02/06 19:28
→
duriamon
我還是要老話一句,人類大腦參數70B功耗60W記憶體4G
02/06 19:29
→
duriamon
B,你一身都只需這樣的配備等級就可以吃喝拉撒生老
02/06 19:29
→
duriamon
病死,現在擺明軟體演算法還有很大的進步空間。
02/06 19:29
噓
RiverEdge
蒸餾也要先有大模型 所以大模型要先訓練出來
02/06 19:30
→
Mosskappa
AI結合醫療就是很多絕症攻克的曙光,太多路能走了
02/06 19:30
→
Mosskappa
,沒人會停下腳步
02/06 19:30
→
duriamon
當然硬體功耗也有很大的進步空間,現在實在太耗電,
02/06 19:30
→
duriamon
吃電怪獸不是叫假的!
02/06 19:30
→
CYL009
說得很好啦 算力越高越好 但是現在都有低成本差不多
02/06 19:31
推
bonny5566
樓上 現在就算的比人類快了
02/06 19:31
→
CYL009
性能的AI出來了 還一直堆算力這方向有沒有問題?
02/06 19:31
→
wr
耗電跟發熱問題就是要靠先進製程克服阿...
02/06 19:32
→
wr
更小更快更省電 製程目標也就這樣
02/06 19:33
→
duriamon
算的比人類快但明顯還比人類笨,你算加減乘除數Stra
02/06 19:34
→
duriamon
berry有幾個r比AI還要在行,現在是AI記憶體不止4GB
02/06 19:34
→
duriamon
所以你覺得AI好像比人類聰明,但放到同等級距,你屌
02/06 19:34
→
duriamon
贏AI。
02/06 19:34
→
vicklin
前提那個成本是真的
02/06 19:35
→
vicklin
連馬斯克都不認的東西
02/06 19:35
推
duriamon
所以幻方比OpenAI、微軟跟馬斯克有錢嗎?
02/06 19:36
推
tsubasawolfy
AI聖杯拿到前談算力夠都是假的
02/06 19:37
→
zer0319
AGI出來之前,醫療、軍工上面還是大有可為
02/06 19:37
推
jiansu
Google怎樣說都是賺錢的吧 他可以用ai節流 裁員/節
02/06 19:37
→
jiansu
省資源 開源 開發新應用 應該沒有什麼先前支出回
02/06 19:37
→
jiansu
報的問題 開發模型是一定要投入開發 比如搜尋 不投
02/06 19:37
→
jiansu
入開發等別家用ai搶市佔嗎 現在卷模型 下波卷應用
02/06 19:37
→
jiansu
ai應用市場更大 需要更便宜的硬體更低的成本
02/06 19:37
推
AudiA4Avant
人腦的記憶力很差,不能完全比吧
02/06 19:38
推
Brioni
說不定下季就從750億美金變150億美金
02/06 19:38
→
tsubasawolfy
而且你怎麼會認為人很聰明
02/06 19:38
→
Brioni
大公司策略沒那麼靈活
02/06 19:38
推
seemoon2000
Google要做的又不是只到這邊為止
02/06 19:40
推
Mosskappa
要知道中國擺明要跟美國競爭了,川普一定會把AI放
02/06 19:41
→
Mosskappa
在國安層級的高度
02/06 19:41
→
zer0319
投資人就是要看到你花一堆資本支出,設備都可以折
02/06 19:41
→
zer0319
舊攤提,而且現在7巨花的錢都是自己賺的現金流和之
02/06 19:41
→
zer0319
前低利借的錢,根本不怕燒
02/06 19:41
推
duriamon
人類很聰明呀!GPT-4參數量大概有175B的吃電怪獸卻
02/06 19:41
→
duriamon
連9.11跟9.9哪個大都不知道,連草莓英文幾個r都會數
02/06 19:41
→
duriamon
錯。
02/06 19:41
→
Mosskappa
現在有推理模式,可以自我糾正錯誤了
02/06 19:42
推
guanting886
?????
02/06 19:43
→
duriamon
人腦4GB記憶體是究極壓縮的成果,讓人類的功耗只有6
02/06 19:43
→
duriamon
0W,卻能有愛因斯坦的性能。
02/06 19:43
推
Mosskappa
看用什麼角度思考,現在AI已經可以解奧賽題目了,
02/06 19:45
→
Mosskappa
比當初轟動世界的gpt3.5強大太多
02/06 19:45
推
AudiA4Avant
9.11 跟 9.9的原因是訓練資料當成版本號
02/06 19:45
推
duriamon
我要講的不是吹噓人類很棒,而是AI模型仍有很大的進
02/06 19:46
→
duriamon
步空間包括架構跟演算法都是。
02/06 19:46
推
afflic
解的出數奧題目,解不出9.9跟9.11哪個大
02/06 19:47
推
Mosskappa
AI一開始畫畫不也是畫不出手指嗎
02/06 19:48
→
duriamon
像Altman之前那種Scaling Law教主模樣,拼命堆參數
02/06 19:49
→
duriamon
量,是不會開發出人類這樣精緻又厲害的大腦的。重點
02/06 19:49
→
duriamon
是在可接受的功耗成本下達到人類程度外加相比人類無
02/06 19:49
→
duriamon
限大的記憶體,這才是AI的目標。
02/06 19:49
→
Lowpapa
NV真的完了
02/06 19:49
推
banbanzon
一直蒸餾484以後5毛錢就能訓練?
02/06 19:51
推
tsubasawolfy
但愛因斯坦不是全才 比較像現在特化後的
02/06 19:53
→
tsubasawolfy
現在他們在搞得根本是想弄出全才
02/06 19:54
→
ImHoluCan
台灣怎麼還不跟上?
02/06 19:54
推
Mosskappa
其實OpenAI 的訓練成本也是一直降低,沒有只是無腦
02/06 19:55
→
Mosskappa
堆算力、參數
02/06 19:55
→
Mosskappa
https://i.imgur.com/UTW8AWU.jpeg
02/06 19:55
→
Mosskappa
這圖是推論,訓練的沒有存
02/06 19:56
推
duriamon
所以才流行MoE呀!你遇到你不會的問題會怎麼做?愛
02/06 19:56
→
duriamon
因斯坦不會修水電他會自己研究到當水電工嗎?還是打
02/06 19:56
→
duriamon
個電話叫人來修?
02/06 19:56
→
saisai34
如果水電工很貴 愛因斯坦會自己研究怎麼修水電@n@a
02/06 19:57
→
duriamon
AI模型很多重大進展都是模擬人類大腦的結果,只是哪
02/06 19:58
→
duriamon
個有效需要try and error,這點華人最擅長了,呵呵
02/06 19:58
→
duriamon
!
02/06 19:58
推
Mosskappa
人類是演化幾十萬年的結晶,AI發展不會這麼快。DS
02/06 19:59
→
Mosskappa
執行長也說五年內很難有agi 。但還是要做
02/06 19:59
推
ohlong
急著蒸出能塞進edge跟機器人的model 就是未來五年
02/06 19:59
→
ohlong
的贏家 以為機器人喊喊而已嗎?今年就是前哨站了
02/06 19:59
→
Mosskappa
美國AI這塊也很多是清華北大的學生,或是華裔
02/06 20:00
→
duriamon
所以我才說預估是4-6年可以搞出AGI,NV會一直吃AI基
02/06 20:02
→
duriamon
建大餅,我早就講過了,呵呵!
02/06 20:02
→
duriamon
跟台灣比較有關的是台積電會扮演什麼角色,台積電被
02/06 20:05
→
duriamon
川普點名下勢必要降價跟設廠才能繼續吃餅,要不然光
02/06 20:05
→
duriamon
川普亂搞就夠台積電受的了,萬一真的被我講中5nm就
02/06 20:05
→
duriamon
夠用,台積電的優勢就會慢慢縮小。
02/06 20:05
→
ImHoluCan
台灣政府還不快買AI建設,真的要輸對岸了
02/06 20:05
→
ImHoluCan
台灣還不快買硬體
02/06 20:05
→
shorty5566
好了早就講過了預言家 我只問一句 你賺多少
02/06 20:07
→
xkso
又一堆恐慌仔? 國年笑話還不夠?
02/06 20:09
推
duriamon
關你屁事?deep seek酸建議去等OpenAI股票上市去all
02/06 20:09
→
duriamon
in呀!笑死!
02/06 20:09
推
bj45566
台灣 AI 早就遠輸給中國了好嗎... AI 現在就是美中
02/06 20:10
→
bj45566
爭霸局面
02/06 20:10
→
kilhi
中國不能用google
02/06 20:10
推
ohlong
台灣只能玩地方包圍中央 edge晶片跟硬體至少我們系
02/06 20:11
→
ohlong
統廠還是有優勢
02/06 20:11
推
ntr203
台灣哪有那麼多閒錢自己研發
02/06 20:11
推
breathair
硬體邊際效應下降之後,現在的AI競賽
02/06 20:12
→
breathair
已經來到算法優化了。硬體當然也需要,
02/06 20:12
→
breathair
但是溢價搶買的時光已經過去了,硬體越
02/06 20:12
→
breathair
等越便宜,你在等硬體的時候,優化算法
02/06 20:12
→
breathair
才是王道了
02/06 20:12
→
breathair
接下來應用面白家爭鳴,QQQ接下來應
02/06 20:13
→
breathair
該能跑贏現在貴森森的NV
02/06 20:13
→
ohlong
ASIC至少我們拿到的製程一定贏對面
02/06 20:13
推
duriamon
也不是沒有錢,就錢被拿去養動物了吧?動物園營收會
02/06 20:13
→
duriamon
看漲嗎?呵呵!
02/06 20:13
→
shorty5566
“我早就說過了!我早就講過了!早就告訴你們了”
02/06 20:17
→
shorty5566
真好奇這些人在股市賺多少 科科科
02/06 20:17
推
duriamon
COVID時我講拿台股賺的去美股繼續賺,我還真有說過
02/06 20:18
→
duriamon
,呵呵!
02/06 20:18
→
dsrte
以前用google時,有在限制只能搜尋甚麼嗎? 甚麼都找
02/06 20:28
推
stlinman
不認識李飛飛Google很難嗎? 看新聞不會自己Google查
02/06 20:28
推
patrol
連中吹都不敢買陸股,哥也早就說過了
02/06 20:28
→
stlinman
證唷? 自己陰謀論瞎猜!
02/06 20:28
→
dsrte
才有市場,ai模型問甚麼都能答才好用
02/06 20:28
推
jo4
事實鏟子只會越賣越貴
02/06 21:10
推
bj45566
台灣的 AI 人才十個有九個半去美國了,要怎麼發展?
02/06 21:18
→
ImHoluCan
台灣人真的搞笑,台積電才是讓台灣人才都死掉的地
02/06 21:57
→
ImHoluCan
方
02/06 21:57
推
mccloud
喔 然後?
02/06 22:48
→
mccloud
適合走芬蘭模式 眾多新創?
02/06 22:49
→
mccloud
還不是像htc一樣 稍有起色就被買走
02/06 22:49
推
kobebrian
台積電讓台灣人才死掉 對啦 張忠謀一定是想殘害台
02/06 23:07
→
kobebrian
灣才說台灣人只有代工才能贏別人
02/06 23:07
推
jamesho8743
duri就是在瞎扯 似懂非懂 AI的目標是什麼? 可接受
02/07 10:31
→
jamesho8743
的功耗成本下達到人類的程度而已? 那只是低階的客
02/07 10:31
→
jamesho8743
服或自駕應用而已 請問你alphago 的目標是什麼? 不
02/07 10:31
→
jamesho8743
就是下出神之一手完全打敗人類? 超級智慧才是AI的
02/07 10:31
→
jamesho8743
終極目標 還有你知不知道湧現? 現在的LLM模型會強
02/07 10:31
→
jamesho8743
是因為把參數量拉高到幾十B幾百B之後突然就發現很
02/07 10:31
→
jamesho8743
厲害了 這也是大家之前為什麼要搶購硬體的原因 如
02/07 10:31
→
jamesho8743
果你演算法不變光硬體夠強訓練個幾T參數的模型搞不
02/07 10:31
→
jamesho8743
好變得超級強 認為不需堆算力的人就純粹是個可笑
02/07 10:31
→
jamesho8743
堆算力跟算法改進根本就兩件分開的事
02/07 10:31
推
jamesho8743
這樣說吧 如果你只是想省錢 只是想能打敗人類就好
02/07 10:42
→
jamesho8743
那3070+katago就已經夠了 如果你是想拿第一打敗對
02/07 10:42
→
jamesho8743
手跟別的AI比賽那就永遠都不夠
02/07 10:42
推
duriamon
人類70B就能湧現了啦!你才搞不清楚狀況,人類輸AI
02/07 16:33
→
duriamon
不是缺乏智慧是缺乏記憶體,這是生物限制因為能耗不
02/07 16:33
→
duriamon
能儲存一堆跟生存無關的事物,實際上目前AI在邏輯推
02/07 16:33
→
duriamon
理就是屌輸人類,上次那個菲爾茲數學獎得主出題的Fr
02/07 16:33
→
duriamon
ontierMath測試集,OpenAI還要靠作弊才25%,笑死!
02/07 16:33
→
duriamon
你標準就是半桶水才在那邊吹湧現,做到動輒好幾百B
02/07 16:39
→
duriamon
才湧現然後說AI好棒棒?舉那個AlphaGo更好笑,在Dee
02/07 16:39
→
duriamon
pmind AlphaGo之前就是因為只會堆積算力想靠算棋來
02/07 16:39
→
duriamon
贏人類,結果老是被人類棋手打敗,後來改往人類的模
02/07 16:39
→
duriamon
糊推理去運作才產生AlphGo才超越人類的。現在AI模型
02/07 16:39
→
duriamon
就是還需要在演算法跟架構修正讓它能模擬人類大腦運
02/07 16:39
→
duriamon
作,好嗎?
02/07 16:39