美國 NIST 評估 DeepSeek V4 落後頂級 AI 模型 8 個月
https://www.techritual.com/2026/05/03/520335/
現在美國國家標準與技術研究院(NIST)下屬人工智慧標準與創新中心(CAISI)也來評估
DeepSeek V4,他們的結論是 DeepSeek V4 落後美國約 8 個月,跟之前的差距差不太多。在
他們的 AI 能力評估結果中,DeepSeek V4 得分在 800 分,而目前最強的是 GPT-5.5,分數
超過 1200 分,GPT-5.4 及 Opus 4.6 也在 1000 分以上。
不過 CAISI 也承認 DeepSeek V4 是他們評測過的中國最強 AI 大模型,在網絡、軟件工程
、自治科學、抽象推理和數學這五個領域名 9 項測試能力很強。更重要的是,DeepSeek V4
的性價比更強,即便與美國最有成敗勢的 GPT-5.4 mini 大模型相比,DeepSeek V4 在 7
個基準測試中 4 個測試性能更優,高出 41% 到 53% 不等。
美國國家標準局認為DSv4的性能僅落後最頂的GPT5.5大約8個月
但開源的性價比非常高,意味著只要裝置到位,
人人都能獨立擁有落後GPT5.5約8個月的模型
非常強勢
----
Sent from BePTT
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.106.51 (臺灣)
※ 文章網址: https://webptt.cc/bbs/HatePolitics/M.1777956688.A.28A.html
推文 (38)
→
busman214
DS就是拿來省成本用的,本來就不是效能
220.136.194.124 05/05 12:55
→
busman214
至上
220.136.194.124 05/05 12:55
推
WTF55665566
在AI領域8個月德鴻溝可大了
223.136.94.122 05/05 12:58
→
kuninaka
你想表達什麼
1.175.214.68 05/05 13:01
→
kuninaka
中又贏嗎
1.175.214.68 05/05 13:01
→
MK250
支那人自己有在用嗎
27.242.140.67 05/05 13:04
推
nidhogg
中國模型會刷分特化這個不是秘密,跑分
49.216.25.17 05/05 13:05
→
nidhogg
分數請打折看
49.216.25.17 05/05 13:05
→
ken85
可惜台灣沒有這種應用層面的軟體= =
118.160.75.205 05/05 13:09
→
ken85
照理說硬體這麼強 軟體也能搞一下
118.160.75.205 05/05 13:09
→
ken85
導航王還沒有辦法搞出紅綠燈剩餘秒 也是怪
118.160.75.205 05/05 13:11
→
ken85
可惜的
118.160.75.205 05/05 13:12
推
waynecode
Seedance 2.0跟Kling3.0 已經海放美國
60.250.65.252 05/05 13:12
→
waynecode
美國的影音生成AI已經完全被打爆
60.250.65.252 05/05 13:12
推
busman214
因為台灣軟體人才大都跑去硬體廠了啊XD
220.136.194.124 05/05 13:14
→
busman214
IC廠的軟體缺比硬體缺還多
220.136.194.124 05/05 13:14
→
ken85
就是想辦法抄個類似的也好 條條大路通羅馬
118.160.75.205 05/05 13:16
→
ken85
紅綠燈剩餘秒數還真的頗實用= =
118.160.75.205 05/05 13:16
→
busman214
台灣有些大廠是有開發自己內部用的模型
220.136.194.124 05/05 13:18
→
busman214
啦~ 商用的又打不過google和openAI,不
220.136.194.124 05/05 13:18
→
busman214
卷也是正常
220.136.194.124 05/05 13:18
推
cg323
台灣長期重硬輕軟是事實,不必爭...
60.248.227.72 05/05 13:19
→
busman214
沒有爭阿,硬體廠給的錢多那麼多不去是
220.136.194.124 05/05 13:20
→
busman214
阿呆XD
220.136.194.124 05/05 13:20
推
kuninaka
台灣主要還是硬體阿
1.175.214.68 05/05 13:22
→
kuninaka
AI硬體一大堆
1.175.214.68 05/05 13:22
推
cg323
寫硬體的軟體還是屬硬體的人材...
60.248.227.72 05/05 13:33
→
cg323
純寫軟體是另一個世界...
60.248.227.72 05/05 13:34
→
AnderinSky
紅綠燈秒數到底好在哪?
1.174.84.244 05/05 13:36
推
busman214
看你怎麼定義「軟體人才」吧@@? 不然
220.136.194.124 05/05 13:36
→
busman214
你以為台灣一年那麼多資工系、資工所畢
220.136.194.124 05/05 13:36
→
busman214
業的人都跑去哪?
220.136.194.124 05/05 13:36
→
AnderinSky
就瞄一眼的事情一堆人在吹 還是他們
1.174.84.244 05/05 13:37
→
AnderinSky
開車都不看外面的
1.174.84.244 05/05 13:37
→
busman214
寫測試、寫演算法、寫模擬、建模、寫內
220.136.194.124 05/05 13:39
→
busman214
部系統也算是軟體的技能樹吧?
220.136.194.124 05/05 13:39
推
kuninaka
他們要的軟體是純軟公司
1.175.214.68 05/05 13:54
推
Livin
所以可以all in A股了嗎?
223.139.166.15 05/05 16:02