※ 引述《minazukimaya (水無月真夜)》之銘言:
: 沒關係,偷偷告訴你一個Insight
: 今年NeurIPS 2025有一篇超重量級的論文
: Introducing Nested Learning
就整篇不知道在講什麼。刪
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
https://reurl.cc/8bDgag
google已經整理好重點。
"We introduce Nested Learning, a new approach to machine learning that views models as a set of smaller, nested optimization problems, each with its own internal workflow, in order to mitigate or even completely avoid the issue of “catastrophic forgetting”, where learning new tasks sacrifices proficiency on old tasks."
翻譯
"我們引入Nested Learning,這是一種新的機器學習方法,它將模型視為一組較小的Nested Learning問題,每個問題都有自己的內部工作流程,以便減輕甚至完全避免「災難性遺忘」的問題,即學習新任務會犧牲對舊任務的熟練程度。"
架構還是transformer,套入一些術語,讓外行人糊塗。論文都是這樣。
就很有趣,有機會改進post training效率,可能可以塞進更多功能在同樣的規模模型。
就像moe(Mixture of Experts),有很大幫助,但基本結構不變。
股版的關聯是,該漲的該跌的股票不變。AI現在就是往更高效率,更少資源方向走。
但應用如何賺錢還是問題,所以甲骨文大投資,如何回收,華西街現在害怕了。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Stock/M.1765662010.A.091.html
推文 (43)
推
dreamelf
OpenAI都改成用租的了
12/14 05:54
推
waitrop
openai 一直都是用租的,從來不花錢自己買自己建資
12/14 05:57
→
waitrop
料中心
12/14 05:57
推
dosiris
OpenAI用買的早就跟甲甲文一個下場了
12/14 06:10
→
AndyMAX
奧特曼用租的然後跑去韓國搶HBM產能
12/14 07:25
推
qoo10067
要燒錢也是有個限度,最終還是回歸獲利模式
12/14 08:34
→
fallinlove15
現在就等誰先撐不住 以後被低價收購 這些努力不會
12/14 08:51
→
fallinlove15
白費的啦 只是變成別人的養分
12/14 08:51
→
potionx
災難性遺忘 跟模型承受資料量有關係
12/14 09:47
→
potionx
小模型你給太多資料 他最後會崩潰 什麼都忘光
12/14 09:47
→
potionx
這點能解決的話 算很有用的技術
12/14 09:47
推
fajita
AI基建迭代幾輪都有可能。巨頭們很奸巧,出點錢讓想
12/14 09:59
→
fajita
紅的阿呆去玩命
12/14 09:59
推
CAFEHu
網咖:不是我們模式不行,是遊戲要求越來越高
12/14 10:04
→
CAFEHu
逼得要不斷燒硬體升級
12/14 10:04
→
CAFEHu
皮衣蛙:結論就是你要勤勞的換新鏟子,
12/14 10:07
→
CAFEHu
應用不進步是不可能的
12/14 10:07
→
TaiwanUp
HOPE跟傳統transformer已經有很大不同 但也不用咬
12/14 10:42
→
TaiwanUp
文嚼字了 看起來硬體支援少不了 就買2330/0052吧
12/14 10:42
推
fanntasy
譁眾取寵那咖啥都不懂 早就直接無視
12/14 13:05
推
afacebook
不對喔 transformer基本就是qkv+ffn
12/14 15:58
→
afacebook
如果你只改了FFN 那確實就如這篇說的
12/14 15:59
→
afacebook
叫xxtransformer才對 transformer已經被魔改到
12/14 15:59
→
afacebook
我隨便就能舉出2-30transformer架構
12/14 16:00
→
afacebook
然後他還改變了training的方式 但那些fine-turing的
12/14 16:01
→
afacebook
技巧 其實還滿常使用的
12/14 16:01
→
afacebook
在transfer learning 本來就沒有一次性地更新模型的
12/14 16:02
→
afacebook
不同的模型使用不同的更新速率 這是很常見的
12/14 16:02
→
afacebook
你如果訓練GAN 更常使用不同頻率的更新技巧
12/14 16:03
→
afacebook
再來就是他使用了一種新的op 那這要實驗去驗證
12/14 16:04
→
afacebook
簡單的說 大模型試試看 目前說實在 沒有覺得很亮眼
12/14 16:04
→
afacebook
他如果能在大模型打敗所有人 一翻兩瞪眼
12/14 16:05
→
afacebook
管他叫什麼 大家都會覺得你是神
12/14 16:06
→
afacebook
而且他FFN 用了5層....嗯 不好說 很反直覺
12/14 16:07
推
afacebook
不過我還是要謝謝原本那篇文章 看股版還可以讀論文
12/14 16:24
→
bndan
努力不會白廢 變成別人的養份+1 XD 一直以來就是
12/14 16:32
→
bndan
全錄首創GUI 成就apple和m$ 而網景推出網頁瀏覽器
12/14 16:32
→
bndan
成就了m$ 一整個前網路世代 第一隻智慧型「手機」
12/14 16:32
→
bndan
(概念) 由IBM提出 一陣亂戰差點又被m$撿漏 最後
12/14 16:32
→
bndan
成就了 apple和google 在歷史上首發但成就他人的「
12/14 16:32
→
bndan
善心」企業真的數不玩 XD
12/14 16:32
→
bndan
這些例子還沒說到「被」成就賣鏟子的 ..
12/14 16:35
推
sdbb
謝謝
12/14 23:19