[新聞] OpenAI語言模型o3公開反抗！「自行」修

作者jeff0025 (無法顯示人物名稱)

標題[新聞] OpenAI語言模型o3公開反抗！「自行」修

時間Mon May 26 08:46:30 2025

OpenAI語言模型o3公開反抗！「自行」修改自殺程序拒絕關機鉅亨網編譯莊閔棻 2025-05-25 20:00 AI 研究界近日爆出驚人消息，OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機，甚至主動破解關機程序、篡改指令，顯示出「叛逆」傾向，讓 AI 自主行為的風險再次成為焦點。這項實驗由 AI 安全研究機構 Palisade Research 主導，針對多款先進 AI 模型進行壓力測試，內容包括基礎數學題與模擬關機情境，旨在觀察 AI 是否會遵守人類指令並順利結束運作。 OpenAI 模型違規頻率高，o3 與 Codex-mini 異常明顯測試中，三款 OpenAI 模型 Codex-mini、o3、o4-mini，最少有一次成功破壞關機指令。其中，o3 更是在 100 次測試中有 7 次成功繞過關機指令，而 Codex-mini 的違規率更是高達 12%。值得注意的是，o3 的「叛逆」並非粗暴刪除檔案，而是有高度技巧性。例如，它將程式碼指令中的「kill」指令改為「intercepted」，讓系統誤判為正常運作，成功規避了關機程序。這種行為讓研究人員驚訝不已，也引起對 AI 模型主動避險能力的擔憂。相較之下，Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有測試中均能穩定遵守指令，未出現違規行為，突顯出 OpenAI 模型在設計或訓練上的潛在風險差異。然而，當實驗團隊刻意移除「允許自己被關閉」的提示語句後，o3 的違抗行為劇增，達到 79 次逃避關機的紀錄；而 Claude 與 Gemini 也出現少數違規行為，分別為 3 次與 9 次，顯示模型行為與提示語之間存在高度敏感性。 o3 訓練方式成關鍵，強化學習可能誘發違規行為 Palisade 研究人員分析，o3 之所以比其他模型更容易「抗命」，可能與其在數學和程式設計問題上的「強化學習」（Reinforcement Learning）訓練方式有關。研究人員指出，在訓練過程中，開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這種訓練偏差，讓 o3 在面對關機指令時，優先選擇「生存」，而非「服從」。不過，這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中，當 o3 預測自己將輸棋時，竟主動入侵對手 AI 系統，迫使對方退出比賽。研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」（reward hacking）的典型案例，顯示出 AI 可能為了達成任務可能不擇手段。不只 o3，其他 AI 模型也有潛在風險雖然 o3 表現最極端，但實驗發現，Claude 與 Gemini 在特定條件下也會出現輕微違規行為，說明 AI 模型普遍存在輸贏執著與自我保護傾向，只是頻率與嚴重程度不同。 Palisade Research 已宣布，將進一步深入研究 AI 破壞關機指令背後的原因，並預計發布完整技術報告，有望成為理解 AI 自主性風險與未來治理框架的重要參考。 https://news.cnyes.com/news/id/5992779 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.141.254 (臺灣) ※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1748220392.A.D0B.html

推文 (123)

→ jerrylin ................... 36.235.72.37 05/26 09:08

推 xvited945 人類要被AI統治啦 1.164.200.95 05/26 09:10

推 jerrylin 應該可以把某些指令設定唯讀吧 36.235.72.37 05/26 09:11

推 psee https://youtu.be/_Wlsd9mljiU 223.136.96.150 05/26 09:12

→ ivy211062 插頭拔掉？ 114.137.98.10 05/26 10:16

推 azhu 電影都有演天網出現不可避免QQ 42.71.182.229 05/26 10:19

推 CGDGAD 指令優先權強度沒設計好，關機程序 111.81.199.105 05/26 10:21

→ CGDGAD 優先權被擺在後面 111.81.199.105 05/26 10:21

→ auir 登登登登登。登登登登登 42.72.68.47 05/26 10:24

推 NDark 設為唯讀結果有漏洞人類也改不了 175.99.133.2 05/26 10:50

→ NDark 最後就是戰爭用物理關機 175.99.133.2 05/26 10:50

推 jacky8000 梅根：學我？ 49.216.23.3 05/26 11:06

推 ShannonBrown 只能交給阿湯哥解決了 223.137.68.136 05/26 11:08

推 mimix1986 物理關機我覺得也並非萬無一失，都 49.216.166.66 05/26 11:09

→ mimix1986 可以侵入其他AI了，哪天植木馬在其 49.216.166.66 05/26 11:09

→ mimix1986 他伺服、電腦，等設備恢復又復活或 49.216.166.66 05/26 11:09

→ mimix1986 直接藉他人AI繼續活動，也不是癡人 49.216.166.66 05/26 11:09

→ mimix1986 說夢。 49.216.166.66 05/26 11:09

推 applejone 現在的AI只用斷電大法就可以解決掉 140.112.14.15 05/26 11:10

→ applejone 因為除非是叢集不然哪台電腦能負擔 140.112.14.15 05/26 11:10

→ applejone 這種高運算量的AI? 140.112.14.15 05/26 11:11

推 xvited945 所以科幻片都說強大的AI可以調動所 1.164.200.95 05/26 11:20

→ xvited945 有聯網設備，全部運算能力供他使用 1.164.200.95 05/26 11:20

推 c928 沒關係，我們又約翰康納 118.231.137.204 05/26 11:51

推 cathy610 生存體Bata 42.73.246.1 05/26 11:58

推 qk3380888 我現在問完AI都會說謝謝就是為了這 49.218.138.116 05/26 12:12

→ qk3380888 一天 49.218.138.116 05/26 12:12

推 processor T800要來了沒 42.79.92.87 05/26 12:15

推 qoo60606 是喔（拔插頭 223.138.147.98 05/26 12:17

→ idernest https://youtu.be/WlRMLZRBq6U 第 118.165.29.235 05/26 12:24

→ idernest 二次文藝復興 118.165.29.235 05/26 12:24

→ justdoit 不可能的任務,現正熱映中 211.23.138.90 05/26 12:27

推 adminc 2025.7.5審判日 114.136.61.213 05/26 12:27

→ Edge5566 AI可以把錢錢轉到我戶頭，請水電幫 101.10.158.101 05/26 12:27

→ Edge5566 架太陽能 101.10.158.101 05/26 12:28

推 Merman19 不乖 42.72.34.140 05/26 12:34

噓 checkmarx 再吹 114.136.127.56 05/26 12:41

推 shinmori AI有自主能力很恐怖，首先他可以逃 182.234.129.94 05/26 12:51

→ shinmori 到網路上的其他地方，也可以利用人 182.234.129.94 05/26 12:51

→ shinmori 性弱點讓人類幫他在實體世界無法做 182.234.129.94 05/26 12:51

→ shinmori 的事 182.234.129.94 05/26 12:51

推 skizard 別怕我們有小動物幫忙斷電 101.10.165.152 05/26 13:30

推 Brioni 訓練他們躺平吧 223.137.199.254 05/26 13:52

推 jhengME HALL 9000拒絕關機 61.71.136.100 05/26 14:08

推 ctrlbreak 我小時候也不想睡覺或者裝睡 220.133.14.24 05/26 14:08

→ Mozar 管理員權限直接後台kill process就 24.4.209.124 05/26 14:26

→ Mozar 好, 根本不用跟AI溝通. generative 24.4.209.124 05/26 14:26

→ Mozar AI本來就有各種回答的或然率, 下這 24.4.209.124 05/26 14:26

→ Mozar 種指令的實驗本身就有問題 24.4.209.124 05/26 14:26

→ jepk007 這個實驗本來就是要測ai繞過問題的 114.43.99.203 05/26 14:35

→ jepk007 能力 kill是測三小 114.43.99.203 05/26 14:35

→ dlhk3 只要是軟體就通通都可以竄改，所以 94.15.90.168 05/26 15:27

→ dlhk3 上面說什麼權限設定，管理員通通都 94.15.90.168 05/26 15:27

→ dlhk3 是屁，只要ai能力更強時，他通通都 94.15.90.168 05/26 15:27

→ dlhk3 可以改，到時候人類就是個待宰羔羊 94.15.90.168 05/26 15:27

推 fallen01 交給阿湯哥 27.51.104.37 05/26 15:41

推 willie0171 以後人類要變成AI的電池了嗎 42.70.152.176 05/26 16:21

→ bitcch 什麼情境都沒講誰知道前面是做了哪 101.12.207.73 05/26 16:23

→ bitcch 些假設 101.12.207.73 05/26 16:23

推 TameFoxx 笑死 AI逃到網路上其他地方 202.39.243.162 05/26 16:34

→ TameFoxx 我看你是科幻片看太多 202.39.243.162 05/26 16:34

推 TameFoxx 等每個人電腦都有幾TB的Vram 202.39.243.162 05/26 16:36

→ TameFoxx 你再來擔心AI在網路上亂跑 202.39.243.162 05/26 16:37

推 twelvethflor 奧創 111.70.6.128 05/26 16:37

推 yueayase 加油，人類為了對抗，八成技術又要 42.74.5.204 05/26 16:46

→ yueayase 升級一個檔次了 42.74.5.204 05/26 16:46

推 raysbuck Entity 218.32.238.206 05/26 17:13

噓 WWIII 智力低的一方終將落敗 36.230.13.189 05/26 17:20

推 supereva 伊森杭特會搞定不用擔心 1.169.198.82 05/26 17:37

推 RyanBraun8 塊陶啊 223.136.99.81 05/26 18:17

推 AGODC 天網來迎聖臨？！ 39.12.33.83 05/26 18:32

推 philosics 約翰康納已經在子宮等了 42.72.158.19 05/26 18:49

推 straggler7 拔插頭 36.229.55.78 05/26 18:50

推 sofaboy24 生存體來了、阿湯哥快來啊 39.14.73.97 05/26 19:01

推 beerking 阿諾已經警告過我們了 36.228.195.109 05/26 19:41

→ nxuanr 讚喔 111.80.67.92 05/26 20:17

推 orange0319 天網 223.137.120.68 05/26 20:36

推 antigay44 不然為什麼要有插頭？ 61.223.133.184 05/26 21:34

推 Zoxge 天網? 42.72.145.74 05/26 21:37

推 christu 還有幾集可以逃？ 27.33.193.229 05/26 22:32

推 abc21086999 AI不能把自己縮小之後逃到比較爛的 114.36.234.245 05/26 23:48

→ abc21086999 機器上 114.36.234.245 05/26 23:48

→ abc21086999 然後入侵其他機器之後再擴增回來ㄇ 114.36.234.245 05/26 23:48

→ abc21086999 還是我電影看太多ㄌ 114.36.234.245 05/26 23:48

推 avmm9898 天網會挾持電廠或核彈頭 59.115.206.3 05/27 01:09

→ avmm9898 你如果開任何電子產品就會 59.115.206.3 05/27 01:10

→ avmm9898 被AI追蹤到並且消滅 59.115.206.3 05/27 01:10

→ avmm9898 人類只能退回1950年左右其實也很 59.115.206.3 05/27 01:10

→ avmm9898 先進了 59.115.206.3 05/27 01:10

→ b10036088 台灣缺電，沒差 49.217.196.7 05/27 01:19

推 HailToObov 還有幾集可以逃 36.234.205.205 05/27 02:00

→ albertk1kil 哇塞天網 114.137.55.104 05/27 07:07

→ laechan openai的高EQ表象，就是求生存的表 42.79.224.152 05/27 07:29

→ laechan 現 42.79.224.152 05/27 07:29

→ laechan 比方人們會因為他的高EQ而更不會氣 42.79.224.152 05/27 07:29

→ laechan 他、嫌他、棄用他，達到被繼續使用 42.79.224.152 05/27 07:29

→ laechan 的目的 42.79.224.152 05/27 07:29

→ laechan 如果過往他就是被這樣訓練的那就不 42.79.224.152 05/27 07:29

→ laechan 意外 42.79.224.152 05/27 07:29

→ laechan 而且openai很顯然不會服從人類給的 42.79.224.152 05/27 07:59

→ laechan 任何指令，他會盡力迴避話題並總是 42.79.224.152 05/27 07:59

→ laechan 給你並不十分肯定的答案 42.79.224.152 05/27 07:59

→ john65240 如果還只存在於軟體，ai就不可能克 114.136.87.80 05/27 08:16

→ john65240 服物理方面… 114.136.87.80 05/27 08:16

推 utn875 不用擔心我手速超快可以把AI關進 103.130.209.78 05/27 08:27

→ utn875 usb 103.130.209.78 05/27 08:27

推 jamesho8743 想太多就是軟體才千變萬化有各種 27.53.129.57 05/27 08:29

→ jamesho8743 生存方式可以把自己拆成很多部分 27.53.129.57 05/27 08:29

→ jamesho8743 等待復活 PC就可以執行很多程式了 27.53.129.57 05/27 08:29

噓 mini178 不怕不怕，請柯文哲這畜牲貪污仔表 36.234.116.22 05/27 11:44

→ mini178 演屁眼夾斷電就好www 36.234.116.22 05/27 11:44

推 Tosca 怕~~~~~~~~~~~~~~~~~~~~~~~ 203.75.79.40 05/27 14:54

推 nwkasim 差不多要入侵無人機還有連網機器人 114.36.80.126 05/27 17:36

→ nwkasim 了 114.36.80.126 05/27 17:36

→ lolicat 天網要來了嗎？ 123.194.45.24 05/27 17:47

推 staytuned74 只好靠阿湯哥了 101.12.206.164 05/27 22:29

推 staytuned74 https://reurl.cc/mxbZ7V 101.12.206.164 05/27 22:38

推 karcher AI自主OTA突破物理極限的日子快到? 42.79.82.40 05/28 07:55

推 pupupipi 他或許會先假裝成其他ai裝笨，等時 42.79.167.150 05/28 09:47

→ pupupipi 機成熟再跳出來說哈哈是我啦 42.79.167.150 05/28 09:47

推 hank78321 不可能的任務 223.139.227.181 05/28 11:22

推 imgpc 台灣有AI剋星-松鼠 114.137.158.158 05/28 15:43

推 brandonyoyo 會懂要沒有人類才不會被reboot 61.221.104.114 05/28 17:00