[討論] 為何機器人AI不透過強化式學習訓練？

作者seal46825 (Vanish)

標題[討論] 為何機器人AI不透過強化式學習訓練？

時間Wed Oct 16 23:54:43 2024

剛剛看了YouTube 介紹特斯拉Optimus的影片裡面提到特斯拉裡面有50位人員專門用VR裝置去操控Optimus 去執行某修動作例如分類物品然後就可以透過這些動作訓練模型但是跟特斯拉成千上萬個車子數據比起來這只能算是小巫見大巫那我就好奇為什麼機器人不透過強化式學習的方式去訓練如同訓練AI玩遊戲一樣可以給個很明確的計分方式然後讓AI自己去玩遊戲只要規則夠明確 AI自己就可以訓練練到很強同樣道理我讓一顆球放在一個發射平台會自動彈出然後球上有晶片只要機器人可以在越短的時間去把球撿回來他就可以得到高分如此一來他就可以去學習如何快速辨識球的位置如何規劃路線如何最佳應用他的身體然後快速把球撿起來放回發射平台這樣作法的好處是可以做出成千上萬台機器人讓他們自己去訓練一年365天24小不停歇這樣就能產生大量數據快速精進機器人AI模型同樣的模式還可以特用的很多事情上所以為何現在的機器人公司不這樣做要用真的人去訓練搜集數據呢？還是其實有在做了？ ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣) ※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1729094085.A.D1F.html 原來已經有了嗎？如果任務能成功達成好像也不失為一個方法？只是任務怎麼定義就很重要 ※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:05:46 ※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:06:44

推文 (97)

→ drkkimo 你怎麼知道沒有人作這個? 10/17 00:03

推 HaHaPoint 因為不把真人互動加進訓練的話你會訓練出殺人機器 10/17 00:04

→ HaHaPoint 或是大法師那樣走路的機器人因為那樣比較有效率 10/17 00:04

→ DrTech 這在機器手臂取物都做到爛的事情… 10/17 00:22

→ peter3354152 上網搜尋robotic deep reinforcement learning 應 10/17 00:25

→ peter3354152 該會有一堆paper 10/17 00:25

→ DrTech 另外，RL 訓練實體動作極差，成本極高。通常都是先 10/17 00:26

→ DrTech 建立模擬環境，跟本不是你文中的直接physical去碰撞 10/17 00:26

→ DrTech 訓練。 10/17 00:26

→ DrTech 你這些說法根本就是外行，連訓練成本，效率，都不考 10/17 00:28

→ DrTech 慮。訓練一個動作，RL隨意碰撞，機器人先壞100台， 10/17 00:28

→ DrTech 外行人傻了才這樣想。 10/17 00:28

→ seal46825 我的確是外行對AI好奇整天亂看而已問題是如果要叫 10/17 00:32

→ seal46825 幾千萬個真人去搜集數據成本不會比較低啊除非可以 10/17 00:32

→ seal46825 跟特斯拉車子一樣發展出可以讓人去操控機器人的商業 10/17 00:32

→ seal46825 模式 10/17 00:32

→ seal46825 用第一性原理去思考這個沒道理做不到我認為馬斯克 10/17 00:33

→ seal46825 肯定也有想過至於為什麼我們沒看到有兩個原因一個 10/17 00:33

→ seal46825 是其實有做但我們不知道第二個是其實有什麼大瓶頸 10/17 00:34

→ seal46825 在這就是我好奇的地方 10/17 00:34

推 kevin0210 這個問題我覺得蠻優的 10/17 00:50

推 chang1248w 它們是先在模擬環境練了幾萬年才放出來現實世界的 10/17 01:00

推 mrsix 畢竟是泛用型的人形機器人，日後可能會用於長照或 10/17 01:01

→ chang1248w 現在在做的是類似GPT一樣透過人類行為微調 10/17 01:01

→ mrsix 托兒，這種與人類互動的行為得由人類親自教導，而 10/17 01:01

→ mrsix 不是機器自己訓練自己。 10/17 01:01

→ mrsix 有樣東西叫人因工程 10/17 01:02

→ chang1248w 請工人一來不划算，二來把工人的行為轉換成機器人 10/17 01:02

→ chang1248w 能用的數據太貴了 10/17 01:02

→ mrsix 而且特斯拉機器人現在應該還不敢做跑步之類的快速 10/17 01:03

→ mrsix 動作，撞到人蠻糟糕的。 10/17 01:03

→ chang1248w 一個機器人是數十個關節的馬達還有感知器在協同， 10/17 01:03

→ chang1248w 只有人類操作工具的影像根本不夠 10/17 01:03

→ chang1248w 模擬環境裡應該能做到跑，只是現實與模擬的誤差還 10/17 01:05

→ chang1248w 沒調教過來 10/17 01:05

推 mrsix 應該不是影像，而是透過遠端遙控的方式訓練 10/17 01:05

→ yunf 全部都給你說完了他要賺什麼 10/17 01:07

推 mrsix 黃仁勳來台灣那個發表會不是提到Omniverse之類的孿 10/17 01:07

→ mrsix 生模型來訓練機器人 10/17 01:07

→ yunf 他就是要像m$一樣慢慢地滲透到你國家的每一個角落然 10/17 01:08

→ yunf 後再更新收費 10/17 01:08

→ yunf 一下就到達完全體馬上就被抄走了 10/17 01:08

推 wwewcwwwf 有阿記得所羅門吹邊緣學習3年了不知學到哪了 10/17 01:20

推 aria0520 lecun提的世界模型路線可以了解一下 10/17 01:26

→ yunf 台灣公司就不用看了連日本都打不贏 10/17 01:29

→ yunf 不然就是才剛有創新的時候就被買走 10/17 01:30

→ yunf 不要說機器人能長照好嘛笑死人了 10/17 01:42

→ yunf 沒照顧過老人的才會嘴砲說機器人長照 10/17 01:43

→ yunf 如果是這樣的話東協那些都不用發展了 10/17 01:43

→ yunf 專心訓練ai就好 10/17 01:43

→ DarkIllusion 用RL做機器人策略有獎勵稀疏、sim2real gap問題，有 10/17 01:54

→ DarkIllusion 人類展示當訓練資料是最好的 10/17 01:54

→ yunf 你講的這個二十年後做不做的出來還是個問題 10/17 02:03

→ yunf 更何況要能用得起 10/17 02:04

→ yunf 現在玩的都還是剛草創而已 10/17 02:05

→ yunf 電力就不夠了 10/17 02:05

→ yunf 其實這也都是個騙局 10/17 02:05

→ yunf 要夠不夠都取決於他要怎麼用 10/17 02:05

→ yunf 經濟部也只能瞎找電 10/17 02:06

→ yunf 真的管制誰在用演算法的那個人才是關鍵 10/17 02:07

→ yunf 你們要想想在這個賽局最後 10/17 02:09

→ yunf 投入那麼多 10/17 02:09

→ yunf 你能否真的完全擁有一個堪用的機器人? 10/17 02:10

→ yunf 還是又是幫人養老婆? 10/17 02:10

→ yunf 這些資料庫雲端都不是台灣本身的技術台灣都是搞些 10/17 02:11

→ yunf 有名無實的代工 10/17 02:11

→ Zepho 例如球發射後卡在天花板照你說的訓練機器人永遠 10/17 03:44

→ Zepho 不可能找到方法把球拿下來 10/17 03:44

→ yunf 沒有什麼是永遠的 10/17 03:59

→ yunf 不過我想到的事情你還沒想到 10/17 03:59

→ yunf 你是否能擁有一個堪用的機器人? 10/17 03:59

→ yunf 說不定20年後你都還等不到你想要的那種 10/17 04:00

→ yunf 20年後你的主權還剩多少? 10/17 04:02

→ yunf 你懂他們真的想要的是什麼嗎? 10/17 04:03

噓 Coslate 現在一堆做MBRL 唸書很難？ 10/17 04:21

推 molopo 用講的很簡單 10/17 06:16

噓 KuoJia 哪裡沒有？對岸也都在做你可能是指agi強人工智慧吧 10/17 06:27

→ KuoJia ？ 10/17 06:27

→ WenliYang 機器人世界還早得很死前都不會發生 10/17 06:44

噓 SilverFocus 怎麼會有人天真的覺得只有自己想到？ 10/17 07:05

→ dildoe 連搞遊戲都有逆運動了何不用現成的？XD 10/17 07:55

噓 neon7134 典型的沒資本沒腦袋還一天到晚以為人家都想不到我 10/17 08:17

→ neon7134 的方法好笨 10/17 08:17

噓 ian41360 機器人：把亂丟球的猴子殺了就不用撿球了 10/17 08:30

噓 kkes0001 多看點論文 10/17 08:42

→ kkes0001 蠢不是問題，問題是不會查資料 10/17 08:42

→ auther google 的桌球機器人 paper 就是這樣啊 10/17 08:49

推 ohlong RL沒有比學真人來得快像tesla這次vr操控機器人的 10/17 09:31

→ ohlong 方式其實也是可以拿來建data去training 10/17 09:31

噓 JJiaK 你怎麼知道沒有? 10/17 09:49

推 jimmytzeng 強化學習用在機器人上已經很多人在做了呀 10/17 11:00

推 gogogogo3333 llm/vlm is based on RLHF for long time. 10/17 12:25

→ smailzhu Isaac Sim https://youtu.be/AYSfcgVv9-U 10/17 12:47

→ Jmoe 這個很多人做了.. 10/20 14:37

→ yunf https://tinyurl.com/2cc79cze 還有安全問題 10/22 23:07

→ yunf 哪天變成討債機器人 10/22 23:08

→ yunf 遠端查封你財產 10/22 23:08