OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI
已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了
ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer
o 的水準。
很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了
。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中,透過模式相似性來猜測答
案。模型夠大,猜得也夠準,但一旦遇到需要推理和邏輯的超長尾問題,就掛了。沒有連貫
的推理能力,肯定解不出來。
然而,o1 模型的訓練方式完全不同。它花了大量時間在模型微調上,讓模型針對已知的問
答,把所有的思考過程(CoT)都想出來。網路上很多資料只有問題和答案,中間的推理過
程要嘛沒有,要嘛只提重點。這些都是靠強化學習逼出來的。
如果有興趣,建議大家讀一下 OpenAI 官網的技術報告和論文:
https://openai.com/index/weak-to-strong-generalization/
。重點在這句:「當我們用這種方法,用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上
的表現,結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」
在這種新機制下,OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動,
產生問題和答案,進行更廣泛、更完整的訓練。而且這種訓練方式相當於,你雖然只學過小
學數學,但經過長時間的策略搜索和 ToT 機制,類似於 System 2 的思考,你可以解出國
中數學題。
當這些能力達到單一模型的算力極限時,可以透過擴大模型,把新知識裝載進更大的模型,
透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型,開始挑戰
高中數學。提升智力的方式是無限的,只受限於你的 GPU 算力。
你知道嗎,OpenAI 在解決 AIME 2024 的最新題目時,沒有任何過去的考古題可參考,裡面
的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎?
※ 引述 《wsad50232 (GGYY)》 之銘言:
: 標題: Re: [討論] OpenAI GPT o1模型
: 時間: Tue Sep 17 12:46:33 2024
:
:
: 不就是語言模型+題庫
:
: 題庫1000題不夠,那就10000題
: 一萬題不夠,那就10萬題
: 看你人的腦袋能裝多少題庫 拼的過嗎?
:
: 但是對那些非一般性的
: 面向多的,沒有標準答案的
: 個別性強,特殊場合,網上找不到答案的
: 資料不足,不完善的
:
: AI 就嗝了
:
: 某小氣公司 難得花了大錢 買了Licence
: 打算明年縮減一半的人力來完成更多的工作
:
: 只能說這些早就不碰技術的高層
: 異想天開 腦袋裝屎
:
: AI 能解的問題 人工早就解了
: 人工不能解的 AI 也不能解
: 但是AI會唬爛很多行不通的答案
: 來浪費人工去驗證
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣)
: ※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1726548395.A.EEB.html
: 推 sdbb : 有卦有推 09/17 12:51
: → bnn : 小氣公司砍掉底層人力正好最適合 09/17 13:01
: 推 alittleghost: 反而沒有標準的才是genai的強項 09/17 14:02
: 推 holebro : 哪間 09/17 14:24
: 噓 zxc0312 : 喔喔喔喔喔這麼會算喔 那幫我算一下怎麼從重劃台北 09/17 15:17
: → zxc0312 : 萬華區 總投資五年回收哦 09/17 15:17
: 推 tim82518 : 哪間 09/17 16:21
: → strlen : 其實這次o1似乎就是AI自己出題自我訓練了 09/17 16:44
: 推 abc0922001 : ChatGPT plus 一個月 20 美金而已 09/17 17:04
: ※ 編輯: wsad50232 (118.166.194.68 臺灣), 09/17/2024 18:37:28
: → chin7521 : 人工不能解的不就請再多人也沒有 09/17 20:10
: 噓 aszx4510 : LLM都出來這麼久了怎麼還有人在講題庫 09/17 20:24
: 推 rnoro : LLM都出來這麼久了,怎麼還有人搞不懂就是題庫。。 09/17 23:29
: 推 rnoro : LLM就是超大接龍,哪來的什麼智慧,話術行銷是一回 09/17 23:32
: → rnoro : 事,搞清楚他能做什麼做不到什麼很要緊,LLM可以搞 09/17 23:32
: → rnoro : 一些從1到5的東西,從0到1就沒輒了。如果現在人搞不 09/17 23:33
: → rnoro : 不出來但是機器搞得出來代表問題本質就是排列組合 09/17 23:34
: → rnoro : 人搞不出來機器也搞不出來,那就得靠真功夫想些新 09/17 23:34
: → rnoro : 東西了 09/17 23:34
: 推 lemonsheep : 但0到1是基礎學科研究在做的 一般工程師甚至整個公 09/18 00:47
: → lemonsheep : 司都是在做1到5的事啊 有哪位的code不是套既有演算 09/18 00:47
: → lemonsheep : 法而是自己想出比既有演算法更好複雜度的寫法嗎? 09/18 00:47
: 噓 Izangel : 天氣預測/蛋白質結構預測/候選藥物預測是文字接龍嗎 09/18 00:57
: → Izangel : ?笑死。 09/18 00:57
: 噓 rnoro : 什麼時候LLM做天氣預測了。。。 09/18 03:21
: → rnoro : 現在所謂的ai只是把問題想辦法塞進目前可以訓練的 09/18 03:22
: → rnoro : 框架,其本質是統計,哪來什麼扯淡智慧,統計沒什麼 09/18 03:23
: → rnoro : 不好,只是要搞清楚哪些是話術哪些是搞得出來的東西 09/18 03:23
: → rnoro : 現在動不動就恐嚇人什麼agi,嚇唬誰呢 09/18 03:23
: → strlen : 還在統計...看來是個完全不懂alexnet的朋友呢 09/18 08:44
: 推 Csongs : 小氣的小公司嗎 09/18 08:48
: → john65240 : 真的,看不懂的只能說你還不懂AI是什麼 09/18 08:49
: 噓 whatzup1124 : 還在題庫哦 機率是什麼你們懂嗎 09/18 11:02
: → whatzup1124 : 分類問題你們懂嗎 09/18 11:02
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.188.192 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1726629560.A.FD5.html
推文 (135)
→
somerabbit
工作上一個ticket 用了cursor + o1 preview, 1個小
09/18 11:30
→
somerabbit
時就做完了 答案還很完美。 令人驚艷的是它可以快
09/18 11:30
→
somerabbit
速閱讀很多files 然後思考 並準確的給出答案
09/18 11:30
推
OyodoKai
現在報名水電學徒還來的急嗎
09/18 11:33
→
zxwxz
我覺得Orion 出來之後可能是agent 完整體,到時可
09/18 11:34
→
zxwxz
能不用外掛任何寫code框架就可以搞定
09/18 11:34
→
ma721
9.9 vs 9.11
09/18 11:35
→
zxwxz
9.9 vs 9.11還有幾個r在strawberry 中都屬於token
09/18 11:44
→
zxwxz
切割的蠢問題,不會是o1要處理的重點,覺得AI很愚
09/18 11:44
→
zxwxz
蠢的可以繼續開心很多年
09/18 11:44
推
HiHiCano
樂見Ai取代人類 不然每天工作好累
09/18 11:50
→
fallcolor
讓llm出題做rl很合理,可是給reward的 label從哪來
09/18 11:52
→
fallcolor
呢? 如果還是需要人為prompt介入,本質上不算agi
09/18 11:52
→
fallcolor
吧
09/18 11:52
推
NTHUlagka
真的 未來那些system design跟軟體開發上的know ho
09/18 12:02
→
NTHUlagka
w, gpt會也只是時間上的問題了 現在報名水電還來得
09/18 12:02
→
NTHUlagka
及嗎 感覺SWE的生存空間要被壓縮了QQ
09/18 12:02
→
zxwxz
新的rl已經不需人類介入,不是rlhf。你要仔細參考
09/18 12:03
→
zxwxz
我貼的那篇才知道可能的做法,以下僅是個人猜測,
09/18 12:03
→
zxwxz
一開始應該會先以gan為基底方法,有題目有答案但沒
09/18 12:03
→
zxwxz
有cot,訓練時要求llm提供完整cot,然後把每步驟的
09/18 12:03
→
zxwxz
cot都拆解成獨立證明提要求critic llm把關,如果證
09/18 12:03
→
zxwxz
明看不懂就得要求o1往下拆解到critic llm看得懂且
09/18 12:03
→
zxwxz
置信率要非常高。等到這步訓練有成效之後,再請出
09/18 12:03
→
zxwxz
題o1出題給解答o1解,這時會依照既有知識堆疊出一
09/18 12:03
→
zxwxz
個複雜的長尾問題出來讓o1自己解,進而不用再抓取
09/18 12:03
→
zxwxz
網路大量垃圾來訓練model,資料牆問題也被攻克
09/18 12:03
→
zzzxxxqqq
9.9 vs 9.11 真的不重要.. 隨便想想都知道
09/18 12:22
→
zzzxxxqqq
隨便想像都知道 10年後有多可怕 -.-
09/18 12:23
推
jeff85898
http://i.imgur.com/U0QHQrr.jpg
09/18 12:26
→
jeff85898
對模型做rl跟在prompt內加入CoT的差別是?
09/18 12:28
推
kunyi
好喔
09/18 12:35
→
zxwxz
在RL做COT與在PROMPT做COT有非常本質上的問題,就
09/18 12:56
→
zxwxz
是要如何驗證COT是對的,你請gpt-4o 在複雜的數理
09/18 12:56
→
zxwxz
問題上做COT,他常常可以回個大概,但中間有步驟錯
09/18 12:56
→
zxwxz
了或是太含糊,根本上COT本身會有非常嚴重的幻覺問
09/18 12:56
→
zxwxz
題,但你如果把COT拆解成一段一段讓critic llm去解
09/18 12:56
→
zxwxz
,那中間是否有問題就很容易判定,再者有些說明跳
09/18 12:56
→
zxwxz
太快critic llm可能無法從先驗知識解讀,那就要進
09/18 12:56
→
zxwxz
一步請o1做問題拆分。 這單靠prompt是無法解決的,
09/18 12:56
→
zxwxz
我猜目前o1的一次推理中的cot中每個step都是一次單
09/18 12:56
→
zxwxz
獨的inference ,當然還要配套MTCS,不然你會很容
09/18 12:56
→
zxwxz
易陷入長尾問題的local minimum 中
09/18 12:56
→
zxwxz
更正 是MCTS
09/18 12:58
→
fallcolor
也許可行吧,只是就算把cot分解critic要判斷的還是
09/18 13:02
→
fallcolor
比alphago的critic估計勝率難很多,label品質不好
09/18 13:02
→
fallcolor
就不容易是一種穩定的訓練方法。
09/18 13:02
→
zxwxz
我覺得可以可以讓critic llm逐漸使用高置信率來評
09/18 13:08
→
zxwxz
斷進而推升o1本體的能力,那每個cot可能就從對5個
09/18 13:08
→
zxwxz
晉升到對10個,進一步推升到整個chain都是對的。所
09/18 13:08
→
zxwxz
以o1可以不用一次inference對整串,他要確保的是在
09/18 13:08
→
zxwxz
每一個step正確性以及前後連貫性,如此就沒有梯度
09/18 13:08
→
zxwxz
消失的問題
09/18 13:08
推
qwe78971
太樂觀 離AGI還遠的 三維空間問題它沒辦法處理
09/18 13:11
推
gogogogo3333
AGI is clearly here. But fine … Don’t look up.
09/18 13:31
→
zxwxz
三維空間無法解決的請看這鏈結
09/18 13:43
→
zxwxz
https://reurl.cc/VMmYR5
09/18 13:43
→
qwe78971
蠻厲害的 不借助引擎完成 不過我是指real world
09/18 13:49
→
zxwxz
這次突破的關鍵可以看這個openai關鍵員工的演講:
09/18 13:50
→
zxwxz
https://reurl.cc/8XbDvg
09/18 13:50
推
aria0520
stop the hype train, LLM is a dead end
09/18 14:01
→
aria0520
don't waste time on llm, go4 lecun's world model
09/18 14:01
推
sdbb
難得的優文,謝謝
09/18 14:05
推
fallcolor
讀了論文,關鍵是讓小模型指導大模型是放大模型更
09/18 14:23
→
fallcolor
好的泛化性,相當於用模型的先天表示力去補強標籤的
09/18 14:24
推
steak5566
請問現在開始練身體可以當比較有用的生物電池嗎?
09/18 14:25
→
Izangel
三維不就李飛飛正在做的嗎
09/18 14:25
→
fallcolor
先驗了,好像有點道理。
09/18 14:25
→
fallcolor
改個錯字,釋放。
09/18 14:27
推
lafel
還有幾個月可以逃呢
09/18 15:08
推
tomatobus
嘻嘻,結果工程師吹了半天AI取代醫生,自己的工作先
09/18 15:16
→
tomatobus
被取代
09/18 15:16
→
zxwxz
不用逃了,即使是完整o1都算閹割版,他們內部大概
09/18 15:16
→
zxwxz
率已經有AGI level 4完整版在玩了,放不放出來只是
09/18 15:16
→
zxwxz
安全性評測與性價比問題
09/18 15:16
→
houseguy
什麼時候能發現新的微分方程有解析解的
09/18 15:45
推
kkithh
AIME題目好像都可以用暴力硬解,用這來說AI比人厲害
09/18 16:07
→
kkithh
,欸豆,頂多說它算得快吧
09/18 16:07
推
steak5566
可以reasoning代表所有人類講邏輯的東西都可以取代
09/18 16:21
→
steak5566
大概只剩律師法官?
09/18 16:21
推
lantimes
還好 錢 房子都存夠了
09/18 16:57
→
wtl
所以小氣公司真的可以用AI來縮減一半的人力?
09/18 17:07
推
transforman
瑟瑟發抖 現在考水電還來的及嗎
09/18 17:10
→
DrTech
想太多了,目前所有測試LLM方式都是在"有標準答案"
09/18 17:14
→
DrTech
的情況。現實工作中,明明大部分的工作都是每標準答
09/18 17:14
→
DrTech
案,甚至看人心情的情形。
09/18 17:14
→
DrTech
沒標準答案的工作,AI要怎麼訓練與幫助你工作。
09/18 17:18
→
DrTech
目前的標準答案形式的AI,工廠的瑕疵檢測都解不了了
09/18 17:20
→
DrTech
。
09/18 17:20
→
DrTech
連最基本的電子產品生產環節,任何一個製程發生issu
09/18 17:22
→
DrTech
e,怎麼依照現場環境來出解答(一直都難以有標準答案
09/18 17:22
→
DrTech
),都做不了了。
09/18 17:22
→
DrTech
AI生成任何標準答案,是正確的沒錯,而且可能比人寫
09/18 17:27
→
DrTech
的好,但不代表是現實工作可採用,可被接受的。
09/18 17:27
→
zxwxz
現實不採用單純是cp值與先驗問題,這麼貴又還沒有
09/18 17:55
→
zxwxz
人在商務上投產過,如果不能肯定創造更多價值或節
09/18 17:55
→
zxwxz
省成本,沒有公司願意嘗試,但3年後我預估成本會比
09/18 17:55
→
zxwxz
現在低100倍,且有實際成功案例,到時大失業潮就會
09/18 17:55
→
zxwxz
來臨
09/18 17:55
推
Izangel
蛋白質跟藥物合成的標準答案是什麼?笑死。怎麼總有
09/18 18:10
→
Izangel
人把自己認為的就以為是AI的全部能力或定義?
09/18 18:10
→
tgyhuj01
同理 所以如何證明當下人類的判斷就一定是對的?
09/18 18:15
→
tgyhuj01
一直用AI只會照表抄課來否定 那一堆標準訂來讓人類
09/18 18:19
→
tgyhuj01
遵循的意義又是什麼
09/18 18:19
→
tgyhuj01
不能完全替代不代表不能部分替代
09/18 18:21
推
create8
感謝分享! 是時候去少林寺報名廚藝班了
09/18 18:48
推
sdbb
食神梗太老了
09/18 18:49
推
hansioux
ARC-AGI 先對 85% 我再來擔心
09/18 20:39
推
utn875
感謝解說
09/18 20:45
推
AddListener
以下是 ARC-AGI 的測評 https://reurl.cc/4dbO0V
09/18 20:54
推
create8
只要有心,人人都可以是食神!! (振奮
09/18 20:57
推
sdbb
一切都是幻覺(AI也有),嚇不倒我的
09/18 21:00
推
spen2005
Aime又不難 要說的話 deepmind還更強
09/18 21:08
推
alvinlin
總是有需要人的地方。只是會有中空期。
09/18 21:26
推
likeyousmile
推
09/18 22:55
→
kiedveian
有人說到token切割不屬於它的問題,那是不是代表
09/18 23:03
→
kiedveian
就算發展的再強,也會因為token切錯出大問題?
09/18 23:04
→
zxwxz
token切割單純是要節省算力,之後只要agent 掛上程
09/18 23:14
→
zxwxz
式工具,這些都是小問題
09/18 23:14
→
rnoro
openai的報告真叫人唏噓,現在連一行方程式都看不到
09/18 23:26
→
rnoro
了,要嘛實在太小氣,要嘛沒有數學上的新東西
09/18 23:27
→
rnoro
不管是哪個都讓人失望。。。
09/18 23:27
噓
gsinin
意識到嚴重性所以呢?你那邊還來得及買便宜的台積電
09/19 00:58
→
gsinin
快買
09/19 00:58
→
strlen
就是沒有標準答案才要靠AI啊 到底在說什麼啊
09/19 01:24
→
strlen
去想想當人類碰到沒有標準答案的問題 是怎麼處理的
09/19 01:24
→
strlen
很簡單 試阿 這裡試試 那裡試試 試到有一次打中問題
09/19 01:25
→
strlen
點了就解了 哪一個沒標準答案的問題不是這種解法?
09/19 01:25
→
strlen
那試東西 機器絕對比人類快一百萬倍吧
09/19 01:26
→
kissa0924307
天網的原型?
09/19 01:51
推
hduek153
好期待人類被取代的那一天 十年內有機會嗎
09/19 07:26
→
chauan
人是拿來負責任用的
09/19 08:44
→
darkangel119
人類是拿來當電池 ~~
09/19 10:28
推
jamesho8743
數學方面我覺得到最後不需要人來label AI是可以左
09/19 13:57
→
jamesho8743
右互搏來比較認證
09/19 13:57