[新聞]不，你無法用 600 萬美元複製一個 DeepSee

不，你無法用 600 萬美元複製一個 DeepSeek R1 https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/ 中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市，關鍵在於其相對低廉的訓練成本，不過深入分析其過程就知道，並不是花 600 萬美元就能複製一個相同的模型。無論華爾街玩的是什麼套路，DeepSeek R1 模型真正讓人驚歎的，是它極度便宜的訓練成本，根據 DeepSeek 宣稱，訓練成本僅 557.6 萬美元，幾乎是其他科技巨頭大型語言模型的十分之一成本，這個費用也差不多是一位 AI 主管的年薪而已。這個驚人的宣示實際上未必如此驚天動地，我們需要一步步拆解他們的模型訓練方式，就能了解其中奧妙。首先，DeepSeek 和 R1 模型並非一步登天，R1 模型的訓練費用其實和去年底發佈的 V3 模型相同，而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。在 V2 模型裡，他們導入了兩個重要的元件：DeepSeekMoE 和 DeepSeekMLA，前者代表了多重專家混合（Mixture of Experts），和 ChatGPT4 一樣，他們將訓練出的 AI 分為多種專家，根據對話內容調用合適領域的專家，以達成更精準而高效率的回應。後者則是多頭潛在注意力機制（Multi-Head Latent Attention），在 AI 對話中，需要載入模型和文本，每個 token 需要對應的 key 和 value，MLA 則能夠壓縮 value 的儲存空間，進而減少記憶體需求。 https://is.gd/gzBeWB ▲DeepSeek V3 模型架構圖。（Source：Github）到了 V3 模型，他們再根據以上基礎，導入負載平衡和多重 token 預測機制，進一步提升訓練效率，根據 DeepSeek 宣稱，訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時，依每工時 2 美元推算，整體訓練成本就是 557.6 萬美元。而 R1 模型的訓練成本據稱與 V3 模型相同，換言之，想要做出 R1 模型，並不是拿 H800 跑 280 萬個工時就能做出來，還必須有前置研究、反覆實驗和前置演算法架構。相反地，從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下，甚至有自己的優勢，既然 DeepSeek 是開源架構，就代表其他科技巨頭可以用相似的模組，投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組，如此則能獲得十倍於 DeepSeek R1 的成果。從這個角度來看，你覺得 NVIDIA 有什麼好緊張的嗎？ -- 推 pb220918:不爽可以當禽獸五樓是禽獸!! 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → Davisss:我是禽獸我真爽我在騎1樓 10/04 22:13 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣) ※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html

推文 (62)