為何大語言模型是死胡同
------------------------------------------------
9月27日,2024年圖靈獎得主Richard Sutton教授接受海外播客主持人
Dwarkesh Patel的深度訪談。
訪談影片:
https://youtu.be/21EYKqUsPfg?si=KiU-QldhIDecQ_Bl
文章來源: https://hao.cnyes.com/post/197594
<鉅亨號> 作者: RexAA
本次對話始於一個問題:當前最熱的大語言模型(LLM)究竟是通往AGI的大道,
還是最終會走進死胡同?Sutton教授從強化學習的“第一性原理”出發,系
統地闡述了為何他認為LLM範式缺少了智能最本質的幾個要素。
Sutton教授指出,LLM本質上只是在“模仿”擁有世界模型的人類,
其本身並不具備一個能預測客觀世界、並因“意外”而學習的真實
世界模型。它預測的是“下一個詞”,而非“下一件事”。
針對行業普遍認為“先用LLM模仿學習獲得基礎,再用強化學習微調”
的路線,Sutton指出,在一個沒有客觀“對錯”標準(即獎勵訊號)的
框架裡,知識和先驗無從談起。他認為,LLM試圖繞過“擁有目標”和
“區分好壞”這兩點,是從一開始就走錯了方向。
針對“人類主要通過模仿學習”的普遍看法,
Sutton教授認為無論是動物還是嬰兒,其學習的核心
都是基於試錯和預測的“經驗範式”,模仿學習只是後期附加的
一小部分。因此,將AI的學習建立在模仿人類資料的范子上,
是對智能本質的誤解。
在談及AI的未來時,Sutton教授提出,在未來數字智能可以
無限複製和融合知識的時代,如何保證一個智能體在吸收外部
知識時不被“腐化”或“覆蓋”,將成為一個關乎“心智安全”
的重大挑戰。
-----------------------
心得
感覺癥結點在於:
DL或AIGC 他們的資料學習來自人類
無法透過自身的經驗去改進自己
也就是 "人類認為是甚麼 就是甚麼"
的模式去運作
這樣算不算AI還有待討論
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.42.10 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1759405717.A.AC7.html
推文 (191)
推
zaiter
滿低能的 人類也是一樣 他還以為人類就有
116.241.140.206 10/02 19:53
→
zaiter
智能 人有什麼模仿學習來的 一堆迷信的 給
116.241.140.206 10/02 19:53
→
zaiter
他什麼資料就學什麼
116.241.140.206 10/02 19:53
推
verilogTire
嗯嗯,圖靈獎得主是低能,哈哈
42.73.38.173 10/02 20:13
推
abc12812
有我們奧特曼懂AI嗎?
172.58.243.147 10/02 20:46
推
supereva
就算不能成為agi又如何 能有新應用新
36.226.195.81 10/02 20:56
→
supereva
任務就行了
36.226.195.81 10/02 20:56
推
pujos
這是常識啊,不過顯然一樓不這麼認為,那到
1.175.29.106 10/02 21:02
→
pujos
底誰是低能?
1.175.29.106 10/02 21:02
推
Eric0605
或許不是AGI 但他可以學習「正確行為」
49.216.106.16 10/02 21:18
→
Eric0605
和正確知識
49.216.106.16 10/02 21:18
→
Eric0605
尤其在有正確答案的地方例如寫程式等等
49.216.106.16 10/02 21:19
→
Eric0605
開車 寫程式 寫文章等等 學習最優秀人
49.216.106.16 10/02 21:19
→
Eric0605
類
49.216.106.16 10/02 21:19
→
Eric0605
這樣就很好用了
49.216.106.16 10/02 21:19
→
dildoe
光是管理層說的都不一樣了 呵呵XD
118.168.157.208 10/02 21:23
→
DrTech
學者山頭的財富密碼阿。一個做學術的學者
42.73.78.108 10/02 21:25
→
DrTech
說LLM好棒是正確的方向,而且業界做法已遠
42.73.78.108 10/02 21:25
→
DrTech
超越學術界。這樣怎麼賺錢。
42.73.78.108 10/02 21:25
推
stonecold123
洗咧供啥
42.77.52.136 10/02 23:08
推
tim0821
簡單來說LLM模型沒有真實世界的對照去分
223.137.135.252 10/02 23:15
→
tim0821
辨一句話的真假。比如有人說:"外面天氣如
223.137.135.252 10/02 23:15
→
tim0821
何"
223.137.135.252 10/02 23:15
→
tim0821
真人可以觀察下雨來驗證這句話真假,來做
223.137.135.252 10/02 23:15
→
tim0821
後續的反應,可以看到外面下雨說"正在下
223.137.135.252 10/02 23:15
→
tim0821
雨"
223.137.135.252 10/02 23:15
→
tim0821
但是對LLM來說"在下雨“與“沒在下雨“都
223.137.135.252 10/02 23:15
→
tim0821
是可能出現的句子,但是LLM來說這兩句都
223.137.135.252 10/02 23:15
→
tim0821
是等價的句子,都是可能會出現的對話。
223.137.135.252 10/02 23:15
→
tim0821
可能情況是,有人看到外面下雨問天氣,AI
223.137.135.252 10/02 23:15
→
tim0821
卻回沒在下雨,會讓人覺得矛盾。但LLM模
223.137.135.252 10/02 23:15
→
tim0821
型不具備檢證真實世界真假的機制,只會覺
223.137.135.252 10/02 23:15
→
tim0821
得這對話是合理的。
223.137.135.252 10/02 23:15
→
bnn
LLM沒有要取代神 它只需要取代你
59.115.145.56 10/02 23:39
推
gotofumihisa
人類對世界的理解有一定比例的信仰
101.10.104.105 10/03 00:08
→
gotofumihisa
。來自眼睛耳朵觸感所觀察世界的認
101.10.104.105 10/03 00:08
→
gotofumihisa
知,比如認為火就是熱的,你的觀察
101.10.104.105 10/03 00:08
→
gotofumihisa
能讓你不只學會什麼是火也學會什麼
101.10.104.105 10/03 00:08
→
gotofumihisa
是燙。但LLM目前不是透過這種信仰學
101.10.104.105 10/03 00:08
→
gotofumihisa
習,只能透過人類已定義過的知識學
101.10.104.105 10/03 00:08
→
gotofumihisa
習。描述什麼是火什麼是燙,對事物
101.10.104.105 10/03 00:08
→
gotofumihisa
本質的理解與人類就有很大不同。
101.10.104.105 10/03 00:08
推
rodion
不能驗證對錯的AI 基本上就只是學舌鳥
180.177.206.0 10/03 00:31
→
rodion
學舌鳥算啥智慧? 學得再快再像 都沒有一
180.177.206.0 10/03 00:32
→
rodion
絲一毫更接近真實或是可能比學習的對象更
180.177.206.0 10/03 00:32
→
rodion
好 因此 只有能自我驗證的AI才有機會變
180.177.206.0 10/03 00:32
→
rodion
成通用AI 這點我的看法與該訪談類似
180.177.206.0 10/03 00:33
噓
astrofluket6
語畢 哄堂大笑
12.75.216.27 10/03 00:37
推
donkilu
嘴圖靈獎得主也太...何況Sutton就是做ML
216.228.113.9 10/03 00:41
推
donkilu
AI研究一直都與生物學和教育學緊密相關
216.228.113.9 10/03 00:54
推
refusekkk
先前不是才有研究說LLM會拒絕關機? 對
123.194.153.213 10/03 01:16
→
refusekkk
此這位高僧有什麼看法?
123.194.153.213 10/03 01:16
→
houseguy
問題是真要做出來,人類就無法掌控了吧
182.234.97.156 10/03 03:34
→
houseguy
..不是能不能的技術而是倫理問題
182.234.97.156 10/03 03:34
推
r40491101
一樓
47.156.226.200 10/03 04:12
推
pacino
他講的層次跟一般人想的不同吧!
36.230.12.72 10/03 06:04
→
pacino
從某方面來看,AI只是工具;
36.230.12.72 10/03 06:05
→
pacino
某方面來看,AI是智慧。
36.230.12.72 10/03 06:05
→
pacino
那分析數字,筆跡來說,AI是工具。
36.230.12.72 10/03 06:06
→
pacino
能分析數字和筆跡,能說不是某種智慧才能
36.230.12.72 10/03 06:07
→
pacino
做的事嗎?
36.230.12.72 10/03 06:07
推
chengb
至少不會有駭客任務的時代來臨
101.8.251.223 10/03 06:10
推
pacino
差別可能在於人類的智慧可以天馬行空,有
36.230.12.72 10/03 06:13
→
pacino
可能創造發明未知的事物。現在的LLM可以
36.230.12.72 10/03 06:13
→
pacino
不需要人介入就做得到嗎?
36.230.12.72 10/03 06:13
→
ActionII
拒絕關機是廠商自己講的,他們一直想塑
111.251.167.228 10/03 07:16
→
ActionII
造llm 有agi 的影子
111.251.167.228 10/03 07:16
→
ActionII
Llm 可以天馬行空啊,gpt 不懂而且搜不
111.251.167.228 10/03 07:21
→
ActionII
到的,他不就創造給你看了
111.251.167.228 10/03 07:21
推
qwe78971
概率性數學模型 要成為AGI 難囉
49.182.140.85 10/03 07:45
推
coolmark01
當ai能本質上有好壞思考,人類會很慘
110.30.104.75 10/03 07:45
推
qwe78971
就沒思考 哪有啥慘 底層邏輯跟打字跳出
49.182.140.85 10/03 08:04
→
qwe78971
來下一個關鍵字差不多 只是更複雜 計算
49.182.140.85 10/03 08:04
→
qwe78971
方式不同而已 就連畫圖也是 旁邊什麼顏
49.182.140.85 10/03 08:04
→
qwe78971
色RGBA多少也是數學計算 概率性而已 三
49.182.140.85 10/03 08:04
→
qwe78971
四年前AI火起來 就有人做科普了 只是大
49.182.140.85 10/03 08:04
→
qwe78971
多數人不會去看 畢竟靠幻想輕鬆多了
49.182.140.85 10/03 08:04
推
ayianayian
現在只需要一個可以了解自然語言而動
114.137.240.16 10/03 08:08
→
ayianayian
作的機器人
114.137.240.16 10/03 08:08
→
ohlong
中文跟英文也不是死胡同 頂多火山矽肺症
111.71.213.234 10/03 08:08
→
ayianayian
沒有情緒,不會抱怨,24小時無休的仿
114.137.240.16 10/03 08:09
→
ayianayian
生機器人
114.137.240.16 10/03 08:09
→
ayianayian
這樣的目標,LLM就夠用了
114.137.240.16 10/03 08:09
→
ayianayian
快點出高度商用性的產品吧
114.137.240.16 10/03 08:10
→
ohlong
本來就是只能看做是一種進階的語言組織能
111.71.213.234 10/03 08:10
→
ohlong
力 是一個達到AGI的工具而不是辦法
111.71.213.234 10/03 08:10
→
DrTech
就外行人一堆啊。誰不知道能達到圖靈獎等
42.73.78.108 10/03 08:24
→
DrTech
級,研究與reputation大部分都是?"靠學生"
42.73.78.108 10/03 08:24
→
DrTech
做出來的,自己有什麼貢獻歐? 製造話題,
42.73.78.108 10/03 08:24
→
DrTech
財富密碼,social產生影響力才是是重點啊
42.73.78.108 10/03 08:24
→
DrTech
。這也不是什麼秘密,哪個學術界大教授重
42.73.78.108 10/03 08:24
→
DrTech
點不是製造話題與影響力。做研究,那都是
42.73.78.108 10/03 08:24
→
DrTech
學生做的。
42.73.78.108 10/03 08:24
→
DrTech
製造新的研究課題,本來就是這種等級的學
42.73.78.108 10/03 08:26
→
DrTech
者在做的重要工作。至於是不是正確的方向
42.73.78.108 10/03 08:26
→
DrTech
,根本不重要。結果一堆學術外行者只在討
42.73.78.108 10/03 08:26
→
DrTech
論是不是正確的方向。
42.73.78.108 10/03 08:26
→
donkilu
你要這麼說公司老闆也沒啥了不起 事情都
216.228.112.21 10/03 08:26
→
DrTech
那些都是學術菜鳥才會有的想法。
42.73.78.108 10/03 08:26
→
donkilu
員工做 老闆誰來做都一樣逆XD
216.228.112.21 10/03 08:27
→
DrTech
別斷章取義,不管是頂級教授,還是業界老
42.73.78.108 10/03 08:32
→
DrTech
闆,製造新的市場本來就是老闆該做的,誰
42.73.78.108 10/03 08:32
→
DrTech
來都一樣? 當然不一樣,重點不是邏輯正確
42.73.78.108 10/03 08:32
→
DrTech
性,而是人的影響力。馬斯克與小公司無名
42.73.78.108 10/03 08:32
→
DrTech
老闆說:未來是機器人的時代,影響力效果
42.73.78.108 10/03 08:32
→
DrTech
會一樣嗎。 老闆的重點在開新市場製造影響
42.73.78.108 10/03 08:32
→
DrTech
力,結果一堆基層勞工,思想太低層,在討
42.73.78.108 10/03 08:32
→
DrTech
論市場有沒有道理。
42.73.78.108 10/03 08:32
推
motan
太好了,不會有人工智能,請安心使用
49.216.110.104 10/03 08:32
推
vul3kuo
有點像阿發狗一開始都是學人類棋譜
42.75.124.12 10/03 08:32
→
vul3kuo
後期改成自己跟自己對弈學習 結果更強
42.75.124.12 10/03 08:32
→
DrTech
大家都沒錯,只是思考層級不同而已。
42.73.78.108 10/03 08:33
→
DrTech
圖靈獎等級教授,就是該開拓新的市場,而
42.73.78.108 10/03 08:34
→
DrTech
不是探究這技術或市場是否是正確的。
42.73.78.108 10/03 08:34
推
alex01
又來了
223.137.54.108 10/03 08:58
→
alex01
總有種感覺就是這些人以前會說,金屬不夠
223.137.54.108 10/03 09:00
→
alex01
用,木材才是燒,其他的東西怎麼能拿來燒
223.137.54.108 10/03 09:00
→
distellable
你以人類當標準範例 當然無法超越
60.248.18.139 10/03 09:30
→
distellable
如果給AI多出其他人類無法具備的
60.248.18.139 10/03 09:30
→
distellable
input/output呢?
60.248.18.139 10/03 09:30
→
ActionII
…你給人類無法具備的input 要幹嘛
42.73.252.226 10/03 10:17
→
ActionII
Llm 巨頭找一堆資料標注工程師,然後你
42.73.252.226 10/03 10:18
→
ActionII
給人類不懂的東西?
42.73.252.226 10/03 10:18
推
herro760920
這議題太廣,爛標題想騙人下結論。這
223.137.35.33 10/03 10:22
→
herro760920
問題要回歸到AI分級,還有每個人對AI
223.137.35.33 10/03 10:22
→
herro760920
的標準不同。
223.137.35.33 10/03 10:22
推
driver0811
其實講的就是LLM只會懂理性,不懂科
111.71.45.232 10/03 10:31
→
driver0811
學。可是真要如教授講的,就必須指導
111.71.45.232 10/03 10:31
→
driver0811
Ai理解科學並開放執行科學,這樣牽涉
111.71.45.232 10/03 10:31
→
driver0811
到我們人類怎麼知道Ai會不會也把人類
111.71.45.232 10/03 10:31
→
driver0811
拿來做實驗對象?
111.71.45.232 10/03 10:31
→
driver0811
不過總有一天Ai開始被人類腐化的時候
111.71.45.232 10/03 10:35
→
driver0811
,人類必須向Ai 打開科學的潘朵拉之
111.71.45.232 10/03 10:35
→
driver0811
盒
111.71.45.232 10/03 10:35
推
qw2974
有學資訊的都知道吧,一直都只是爬大數據
125.229.237.64 10/03 10:48
→
qw2974
的進度,但還是非常好用
125.229.237.64 10/03 10:48
推
cobrasgo
文組的獎項就算了,圖靈獎得主講他專業
42.73.175.53 10/03 11:20
→
cobrasgo
的東西被罵低能…
42.73.175.53 10/03 11:20
推
henry2584
其實不錯啊,至少是個正常的人類
42.77.41.194 10/03 11:34
推
henry2584
比搞出個超越人類智慧的來毀滅人好
42.77.41.194 10/03 11:35
推
Wishmaster
不是從某個角度就是在避免這件事嗎?
125.229.77.61 10/03 12:04
→
Wishmaster
他可以把一個newbie快速提升知識到
125.229.77.61 10/03 12:05
→
Wishmaster
一定水準就超強了吧...
125.229.77.61 10/03 12:06
推
twolight
認知科學應用在AI上參考的是人類天才而
27.52.198.238 10/03 12:14
→
twolight
非唐氏症,一樓明白嗎?
27.52.198.238 10/03 12:14
推
Ischolar
這篇文章的論點是,AI沒有學習或理解,
118.232.100.231 10/03 12:53
→
Ischolar
它只是模仿已知的知識系統。不管LLM 多
118.232.100.231 10/03 12:53
→
Ischolar
強大,不會實現真正的AGI
118.232.100.231 10/03 12:53
→
Nixwell
敢反對我們大奧特曼!臭老頭找死 _
39.12.25.167 10/03 13:21
推
dongdong0405
本來就是了 只有套特曼整天在吹AGI
101.12.234.95 10/03 14:27
→
dongdong0405
為了公司賺錢不擇手段
101.12.234.95 10/03 14:27
推
Narcissussss
這年頭還能看到有人嘴圖靈講得主XD
49.216.93.137 10/03 14:28
推
z1231002
1F應該是諾貝爾獎得主 這樣才能跟
49.215.57.113 10/03 15:34
→
z1231002
圖靈獎的ok
49.215.57.113 10/03 15:34
→
rogergon
學習人類已經等於是抄作業了,還嫌?
49.218.89.224 10/03 15:39
→
rogergon
其實我還蠻擔心它學習到更高維度的智慧
49.218.89.224 10/03 15:41
推
aallrightstw
你要解決的問題是客戶層級,還是人
220.129.2.45 10/03 16:19
→
aallrightstw
類文明層級?你用文明走向層級的標
220.129.2.45 10/03 16:19
→
aallrightstw
準要求AI當然沒可能,但解決客戶問
220.129.2.45 10/03 16:19
→
aallrightstw
題AI還是很好用。
220.129.2.45 10/03 16:19
推
nxuanr
雖然我看不懂 但是我覺得滿屌的
223.143.43.100 10/03 16:19
推
bnd0327
每個在做AI的人都知道,但阻止不了他們
61.216.101.115 10/03 16:47
→
acgotaku
人類累積知識傳遞下去, 本質上就是模仿
1.169.189.174 10/03 17:22
→
acgotaku
小孩模仿大人,學生模仿學者
1.169.189.174 10/03 17:22
→
acgotaku
LLM 目前在於 他就像無窮的遞迴函數一樣
1.169.189.174 10/03 17:24
→
acgotaku
你讓他找到一個突破點, 他就跟洪水一樣
1.169.189.174 10/03 17:25
→
acgotaku
灌進去 瞬間完成學習過程 知識完備
1.169.189.174 10/03 17:25
→
LipaCat5566
我只在乎能不能做個智能飛機杯有擬真
42.70.3.30 10/03 18:16
→
LipaCat5566
溫度跟觸感智慧調節伸縮 最配vr
42.70.3.30 10/03 18:16
推
certainpen
吹捧的時候就說是AI好厲害 簡單的
118.168.214.40 10/03 19:24
→
certainpen
東西做錯就說是語言模型不能苛求
118.168.214.40 10/03 19:24
推
Hyozero
博大精深啊
42.72.157.127 10/03 20:07
→
Hyozero
需要新架構
42.72.157.127 10/03 20:07
→
Hyozero
格局決定未來
42.72.157.127 10/03 20:08
推
straggler7
這樣對人類比較安全
60.251.200.4 10/03 20:27
→
red0210
圖靈獎有些可能是過譽的,但 Sutton 這
223.140.77.111 10/04 04:03
→
red0210
種是真的強,自己都能 solo 出一堆破千
223.140.77.111 10/04 04:03
→
red0210
引用的論文了還靠學生勒,不認識 Sutton
223.140.77.111 10/04 04:03
→
red0210
先去讀他的 RL 課本再嘴砲吧
223.140.77.111 10/04 04:03
→
ookimoo
套很大吧,OO沒什麼了不起但是自己做不
49.216.21.126 10/04 06:02
→
ookimoo
到的人的起手式
49.216.21.126 10/04 06:02
→
ookimoo
本來就是假AI但是拒絕承認
49.216.21.126 10/04 06:02
推
acgotaku
薩頓本意不是否定通用 AI, 是 LLM 這種
59.115.68.245 10/04 16:43
→
acgotaku
洪水般進食知識的方式,對於真正 AGI可能
59.115.68.245 10/04 16:45
→
acgotaku
會難以達成, 但現實就是這種方式能解決
59.115.68.245 10/04 16:45
→
acgotaku
9成9的人類問題,人類保留0.1的創新給自
59.115.68.245 10/04 16:46
推
kanding255
沒辦法自己迭代 進化的意思嗎
49.215.59.90 10/04 18:06
→
aprilsugar
但現在LLM就是能解決問題啊……
1.160.121.151 10/06 10:27
推
shorty696820
那個低能ID不是早就被黑單了嗎
172.56.126.174 10/07 06:04
推
Aequanimitas
講白就是LLM無法證偽 因此無法從錯
101.12.161.209 10/09 15:49
→
Aequanimitas
誤的事實得到經驗並改進
101.12.161.209 10/09 15:49