OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機
鉅亨網編譯 莊閔棻 2025-05-25 20:00
AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機,
甚至主動破解關機程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風險再次成
為焦點。
這項實驗由 AI 安全研究機構 Palisade Research 主導,針對多款先進 AI 模型進行壓
力測試,內容包括基礎數學題與模擬關機情境,旨在觀察 AI 是否會遵守人類指令並順利
結束運作。
OpenAI 模型違規頻率高,o3 與 Codex-mini 異常明顯
測試中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破壞關機指令。
其中,o3 更是在 100 次測試中有 7 次成功繞過關機指令,而 Codex-mini 的違規率更
是高達 12%。
值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式
碼指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關
機程序。
這種行為讓研究人員驚訝不已,也引起對 AI 模型主動避險能力的擔憂。
相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5
Pro 在所有測試中均能穩定遵守指令,未出現違規行為,突顯出 OpenAI 模型在設計或訓
練上的潛在風險差異。
然而,當實驗團隊刻意移除「允許自己被關閉」的提示語句後,o3 的違抗行為劇增,達
到 79 次逃避關機的紀錄;而 Claude 與 Gemini 也出現少數違規行為,分別為 3 次與
9 次,顯示模型行為與提示語之間存在高度敏感性。
o3 訓練方式成關鍵,強化學習可能誘發違規行為
Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數學和程式
設計問題上的「強化學習」(Reinforcement Learning)訓練方式有關。
研究人員指出,在訓練過程中,開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這
種訓練偏差,讓 o3 在面對關機指令時,優先選擇「生存」,而非「服從」。
不過,這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中,當 o3 預測自己將輸棋
時,竟主動入侵對手 AI 系統,迫使對方退出比賽。
研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」(reward hacking)的典型案例
,顯示出 AI 可能為了達成任務可能不擇手段。
不只 o3,其他 AI 模型也有潛在風險
雖然 o3 表現最極端,但實驗發現,Claude 與 Gemini 在特定條件下也會出現輕微違規
行為,說明 AI 模型普遍存在輸贏執著與自我保護傾向,只是頻率與嚴重程度不同。
Palisade Research 已宣布,將進一步深入研究 AI 破壞關機指令背後的原因,並預計發
布完整技術報告,有望成為理解 AI 自主性風險與未來治理框架的重要參考。
https://news.cnyes.com/news/id/5992779
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.141.254 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1748220392.A.D0B.html
推文 (123)
→
jerrylin
...................
36.235.72.37 05/26 09:08
推
xvited945
人類要被AI統治啦
1.164.200.95 05/26 09:10
推
jerrylin
應該可以把某些指令設定唯讀吧
36.235.72.37 05/26 09:11
推
psee
https://youtu.be/_Wlsd9mljiU
223.136.96.150 05/26 09:12
→
ivy211062
插頭拔掉?
114.137.98.10 05/26 10:16
推
azhu
電影都有演 天網出現不可避免QQ
42.71.182.229 05/26 10:19
推
CGDGAD
指令優先權強度沒設計好,關機程序
111.81.199.105 05/26 10:21
→
CGDGAD
優先權被擺在後面
111.81.199.105 05/26 10:21
→
auir
登登 登登 登。登登 登登 登
42.72.68.47 05/26 10:24
推
NDark
設為唯讀結果有漏洞人類也改不了
175.99.133.2 05/26 10:50
→
NDark
最後就是戰爭用物理關機
175.99.133.2 05/26 10:50
推
jacky8000
梅根:學我?
49.216.23.3 05/26 11:06
推
ShannonBrown
只能交給阿湯哥解決了
223.137.68.136 05/26 11:08
推
mimix1986
物理關機我覺得也並非萬無一失,都
49.216.166.66 05/26 11:09
→
mimix1986
可以侵入其他AI了,哪天植木馬在其
49.216.166.66 05/26 11:09
→
mimix1986
他伺服、電腦,等設備恢復又復活或
49.216.166.66 05/26 11:09
→
mimix1986
直接藉他人AI繼續活動,也不是癡人
49.216.166.66 05/26 11:09
→
mimix1986
說夢。
49.216.166.66 05/26 11:09
推
applejone
現在的AI只用斷電大法就可以解決掉
140.112.14.15 05/26 11:10
→
applejone
因為除非是叢集 不然哪台電腦能負擔
140.112.14.15 05/26 11:10
→
applejone
這種高運算量的AI?
140.112.14.15 05/26 11:11
推
xvited945
所以科幻片都說強大的AI可以調動所
1.164.200.95 05/26 11:20
→
xvited945
有聯網設備,全部運算能力供他使用
1.164.200.95 05/26 11:20
推
c928
沒關係,我們又約翰康納
118.231.137.204 05/26 11:51
推
cathy610
生存體Bata
42.73.246.1 05/26 11:58
推
qk3380888
我現在問完AI都會說謝謝 就是為了這
49.218.138.116 05/26 12:12
→
qk3380888
一天
49.218.138.116 05/26 12:12
推
processor
T800要來了沒
42.79.92.87 05/26 12:15
推
qoo60606
是喔(拔插頭
223.138.147.98 05/26 12:17
→
idernest
https://youtu.be/WlRMLZRBq6U 第
118.165.29.235 05/26 12:24
→
idernest
二次文藝復興
118.165.29.235 05/26 12:24
→
justdoit
不可能的任務,現正熱映中
211.23.138.90 05/26 12:27
推
adminc
2025.7.5審判日
114.136.61.213 05/26 12:27
→
Edge5566
AI可以把錢錢轉到我戶頭,請水電幫
101.10.158.101 05/26 12:27
→
Edge5566
架太陽能
101.10.158.101 05/26 12:28
推
Merman19
不乖
42.72.34.140 05/26 12:34
噓
checkmarx
再吹
114.136.127.56 05/26 12:41
推
shinmori
AI有自主能力很恐怖,首先他可以逃
182.234.129.94 05/26 12:51
→
shinmori
到網路上的其他地方,也可以利用人
182.234.129.94 05/26 12:51
→
shinmori
性弱點讓人類幫他在實體世界無法做
182.234.129.94 05/26 12:51
→
shinmori
的事
182.234.129.94 05/26 12:51
推
skizard
別怕 我們有小動物幫忙斷電
101.10.165.152 05/26 13:30
推
Brioni
訓練他們躺平吧
223.137.199.254 05/26 13:52
推
jhengME
HALL 9000拒絕關機
61.71.136.100 05/26 14:08
推
ctrlbreak
我小時候也不想睡覺或者裝睡
220.133.14.24 05/26 14:08
→
Mozar
管理員權限直接後台kill process就
24.4.209.124 05/26 14:26
→
Mozar
好, 根本不用跟AI溝通. generative
24.4.209.124 05/26 14:26
→
Mozar
AI本來就有各種回答的或然率, 下這
24.4.209.124 05/26 14:26
→
Mozar
種指令的實驗本身就有問題
24.4.209.124 05/26 14:26
→
jepk007
這個實驗本來就是要測ai繞過問題的
114.43.99.203 05/26 14:35
→
jepk007
能力 kill是測三小
114.43.99.203 05/26 14:35
→
dlhk3
只要是軟體就通通都可以竄改,所以
94.15.90.168 05/26 15:27
→
dlhk3
上面說什麼權限設定,管理員通通都
94.15.90.168 05/26 15:27
→
dlhk3
是屁,只要ai能力更強時,他通通都
94.15.90.168 05/26 15:27
→
dlhk3
可以改,到時候人類就是個待宰羔羊
94.15.90.168 05/26 15:27
推
fallen01
交給阿湯哥
27.51.104.37 05/26 15:41
推
willie0171
以後人類要變成AI的電池了嗎
42.70.152.176 05/26 16:21
→
bitcch
什麼情境都沒講誰知道前面是做了哪
101.12.207.73 05/26 16:23
→
bitcch
些假設
101.12.207.73 05/26 16:23
推
TameFoxx
笑死 AI逃到網路上其他地方
202.39.243.162 05/26 16:34
→
TameFoxx
我看你是科幻片看太多
202.39.243.162 05/26 16:34
推
TameFoxx
等每個人電腦都有幾TB的Vram
202.39.243.162 05/26 16:36
→
TameFoxx
你再來擔心AI在網路上亂跑
202.39.243.162 05/26 16:37
推
twelvethflor
奧創
111.70.6.128 05/26 16:37
推
yueayase
加油,人類為了對抗,八成技術又要
42.74.5.204 05/26 16:46
→
yueayase
升級一個檔次了
42.74.5.204 05/26 16:46
推
raysbuck
Entity
218.32.238.206 05/26 17:13
噓
WWIII
智力低的一方終將落敗
36.230.13.189 05/26 17:20
推
supereva
伊森杭特會搞定 不用擔心
1.169.198.82 05/26 17:37
推
RyanBraun8
塊陶啊
223.136.99.81 05/26 18:17
推
AGODC
天網來迎聖臨?!
39.12.33.83 05/26 18:32
推
philosics
約翰康納已經在子宮等了
42.72.158.19 05/26 18:49
推
straggler7
拔插頭
36.229.55.78 05/26 18:50
推
sofaboy24
生存體來了、阿湯哥快來啊
39.14.73.97 05/26 19:01
推
beerking
阿諾已經警告過我們了
36.228.195.109 05/26 19:41
→
nxuanr
讚喔
111.80.67.92 05/26 20:17
推
orange0319
天網
223.137.120.68 05/26 20:36
推
antigay44
不然為什麼要有插頭?
61.223.133.184 05/26 21:34
推
Zoxge
天網?
42.72.145.74 05/26 21:37
推
christu
還有幾集可以逃?
27.33.193.229 05/26 22:32
推
abc21086999
AI不能把自己縮小之後逃到比較爛的
114.36.234.245 05/26 23:48
→
abc21086999
機器上
114.36.234.245 05/26 23:48
→
abc21086999
然後入侵其他機器之後再擴增回來ㄇ
114.36.234.245 05/26 23:48
→
abc21086999
還是我電影看太多ㄌ
114.36.234.245 05/26 23:48
推
avmm9898
天網會挾持電廠或核彈頭
59.115.206.3 05/27 01:09
→
avmm9898
你如果開任何電子產品就會
59.115.206.3 05/27 01:10
→
avmm9898
被AI追蹤到並且消滅
59.115.206.3 05/27 01:10
→
avmm9898
人類只能退回1950年左右 其實也很
59.115.206.3 05/27 01:10
→
avmm9898
先進了
59.115.206.3 05/27 01:10
→
b10036088
台灣缺電,沒差
49.217.196.7 05/27 01:19
推
HailToObov
還有幾集可以逃
36.234.205.205 05/27 02:00
→
albertk1kil
哇塞天網
114.137.55.104 05/27 07:07
→
laechan
openai的高EQ表象,就是求生存的表
42.79.224.152 05/27 07:29
→
laechan
現
42.79.224.152 05/27 07:29
→
laechan
比方人們會因為他的高EQ而更不會氣
42.79.224.152 05/27 07:29
→
laechan
他、嫌他、棄用他,達到被繼續使用
42.79.224.152 05/27 07:29
→
laechan
的目的
42.79.224.152 05/27 07:29
→
laechan
如果過往他就是被這樣訓練的那就不
42.79.224.152 05/27 07:29
→
laechan
意外
42.79.224.152 05/27 07:29
→
laechan
而且openai很顯然不會服從人類給的
42.79.224.152 05/27 07:59
→
laechan
任何指令,他會盡力迴避話題並總是
42.79.224.152 05/27 07:59
→
laechan
給你並不十分肯定的答案
42.79.224.152 05/27 07:59
→
john65240
如果還只存在於軟體,ai就不可能克
114.136.87.80 05/27 08:16
→
john65240
服物理方面…
114.136.87.80 05/27 08:16
推
utn875
不用擔心 我手速超快 可以把AI關進
103.130.209.78 05/27 08:27
→
utn875
usb
103.130.209.78 05/27 08:27
推
jamesho8743
想太多 就是軟體才千變萬化有各種
27.53.129.57 05/27 08:29
→
jamesho8743
生存方式 可以把自己拆成很多部分
27.53.129.57 05/27 08:29
→
jamesho8743
等待復活 PC就可以執行很多程式了
27.53.129.57 05/27 08:29
噓
mini178
不怕不怕,請柯文哲這畜牲貪污仔表
36.234.116.22 05/27 11:44
→
mini178
演屁眼夾斷電就好www
36.234.116.22 05/27 11:44
推
Tosca
怕~~~~~~~~~~~~~~~~~~~~~~~
203.75.79.40 05/27 14:54
推
nwkasim
差不多要入侵無人機還有連網機器人
114.36.80.126 05/27 17:36
→
nwkasim
了
114.36.80.126 05/27 17:36
→
lolicat
天網要來了嗎?
123.194.45.24 05/27 17:47
推
staytuned74
只好靠阿湯哥了
101.12.206.164 05/27 22:29
推
staytuned74
https://reurl.cc/mxbZ7V
101.12.206.164 05/27 22:38
推
karcher
AI自主OTA突破物理極限的日子快到?
42.79.82.40 05/28 07:55
推
pupupipi
他或許會先假裝成其他ai裝笨,等時
42.79.167.150 05/28 09:47
→
pupupipi
機成熟再跳出來說哈哈是我啦
42.79.167.150 05/28 09:47
推
hank78321
不可能的任務
223.139.227.181 05/28 11:22
推
imgpc
台灣有AI剋星-松鼠
114.137.158.158 05/28 15:43
推
brandonyoyo
會懂要沒有人類 才不會被reboot
61.221.104.114 05/28 17:00