不,你無法用 600 萬美元複製一個 DeepSeek R1
https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/
中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的
訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型
。
無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成
本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模
型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。
這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就
能了解其中奧妙。
首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3
模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。
在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了
多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多
種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多
頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和
文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進
而減少記憶體需求。
https://is.gd/gzBeWB
▲DeepSeek V3 模型架構圖。(Source:Github)
到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提
升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,
依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。
而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿
H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。
相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至
有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投
入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於
DeepSeek R1 的成果。
從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?
--
推 pb220918:不爽可以當禽獸 五樓是禽獸!! 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ Davisss:我是禽獸 我真爽 我在騎1樓 10/04 22:13
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html
推文 (62)
推
boards
如果成本這麼低
112.78.81.247 01/29 10:59
→
boards
全世界的核電廠也該關閉了
112.78.81.247 01/29 10:59
→
boards
中國拉一根暗管,偷接OpenAI 、Gemi
112.78.81.247 01/29 11:00
→
boards
ni ,資料還會回傳中國!
112.78.81.247 01/29 11:00
→
tgyhuj01
台灣已經關了阿 你質疑台灣政府?
36.227.83.81 01/29 11:11
推
bella1815
DeepSeek有5萬個H100,礙於禁令不
61.228.165.120 01/29 11:27
→
bella1815
能明言
61.228.165.120 01/29 11:27
→
kevinmeng2
世界怎麼跟得上台灣?終於跟上了
219.70.152.87 01/29 11:47
推
shter
又不是只有訓練AI要用電,現在一堆
1.169.73.118 01/29 12:27
→
shter
雲端服務算力主機在做其他應用產品
1.169.73.118 01/29 12:28
→
shter
幾年前那些大數據資料中心越存越多
1.169.73.118 01/29 12:29
→
shter
累積下去能源需求只會擴張而已
1.169.73.118 01/29 12:29
推
kingof303
一看就知道中國在騙人 多呆才相信
61.227.212.152 01/29 12:42
噓
cityhunter04
最大的優勢就是會幫忙言論審查…厲
114.24.100.161 01/29 12:48
→
cityhunter04
害厲害!
114.24.100.161 01/29 12:48
推
zombiechen
前天吹deep search 的帳號今天都躲
118.171.11.104 01/29 13:00
→
zombiechen
起來不見了
118.171.11.104 01/29 13:00
推
drea
DS厲害的是晶片不用算入成本,無敵
111.252.83.115 01/29 13:13
推
peter6666712
十倍工時 = 十倍成果 笑了
1.200.246.84 01/29 13:19
推
afking
問就是繼續買進
49.217.130.119 01/29 13:53
推
kaltu
這整個成本什麼時候audit報告會出來
100.8.245.106 01/29 14:05
→
kaltu
?
100.8.245.106 01/29 14:05
→
jhangyu
有夠lag,berkley實驗室
101.9.131.231 01/29 14:17
→
jhangyu
已經用30美元複製成果了還在洗
101.9.131.231 01/29 14:17
噓
straggler7
糾結在成本怎麼算沒太大意義
36.229.59.188 01/29 14:24
推
admon
成本也許誇大 但從結果論看並不是全
125.224.210.22 01/29 14:53
→
admon
假
125.224.210.22 01/29 14:53
噓
jason90814
「並不是拿 H800 跑 280 萬個工時
180.217.192.111 01/29 15:03
→
jason90814
就能做出來,還必須有前置研究、反
180.217.192.111 01/29 15:03
→
jason90814
覆實驗和前置演算法架構」這段到底
180.217.192.111 01/29 15:03
→
jason90814
在公殺小,阿人家研究跟架構都開源
180.217.192.111 01/29 15:03
→
jason90814
了,GPT那種閉源的才是無法複製吧
180.217.192.111 01/29 15:03
推
jason90814
還在提晶片價格的也是頗ㄏ 租房跟
180.217.192.111 01/29 15:08
→
jason90814
買房搞不清楚
180.217.192.111 01/29 15:08
推
hensel
MOE的e不用先訓練喔
36.230.44.78 01/29 15:09
噓
jackey0117
開源的優勢屌打那些貴森森的商用的
116.241.209.33 01/29 15:27
→
cphe
這樣講這不就代表中國的AI研究實力
42.79.160.68 01/29 15:38
→
cphe
更強嗎
42.79.160.68 01/29 15:38
推
Alphaz
坐等GAI卷到免費 支那加油好嗎
150.117.201.51 01/29 15:59
推
swimbert
哇終於有人承認模型更好了
123.204.137.86 01/29 16:09
推
samarium
有部分理工男對核電跟中國特別有感
49.216.129.35 01/29 16:38
→
samarium
覺柯柯
49.216.129.35 01/29 16:38
→
boards
https://i.imgur.com/lZuXZhu.jpeg
101.10.44.11 01/29 16:53
→
boards
你各位啊~不要再傳啦!
101.10.44.11 01/29 16:53
→
boards
今天用電佔比:
101.10.44.11 01/29 16:53
→
boards
再生能源45%是核電4.3%的十多倍
101.10.44.11 01/29 16:53
推
naushtogo
中國講的數字你也信?
1.146.134.27 01/29 17:03
→
oopsskimo
訓練自己的AI出來 發大財
223.139.131.221 01/29 17:10
噓
navysoider
有關中國跟共產黨的話題會沒有答案
1.200.140.93 01/29 17:17
→
navysoider
,共產黨的人工智慧
1.200.140.93 01/29 17:17
→
BoXeX
在想本板文組是不是有點多啊
111.250.18.76 01/29 17:30
推
b258963147
越卷越好,坐等 gpt免費 嘻嘻
111.254.15.138 01/29 17:43
→
much0112
如果結果只是演算法上的問題
114.174.185.237 01/29 18:21
→
much0112
而不是工具上的限制
114.174.185.237 01/29 18:21
→
much0112
美國AI大戰等著敗
114.174.185.237 01/29 18:21
→
much0112
1億人拼不過14億人
114.174.185.237 01/29 18:21
推
MVPkobe
確實 最後一段跟我想法一致
42.72.87.167 01/29 19:19
推
bella1815
連美國人口多少都錯的離譜
61.228.165.120 01/29 20:04
→
lavign
LLM都還在吃2017 Transformer老本
42.71.91.63 01/30 05:46
推
npkalala
同意51樓,真的有人以為要達到人腦
42.77.24.135 01/30 10:02
→
npkalala
思考只有架構問題,一堆文組
42.77.24.135 01/30 10:02
推
Brioni
有明確進步還蠻屌的
203.204.115.205 01/31 22:34