AI 也有「情緒」?Anthropic 研究:Claude 回應與決策受影響
媒體:科技新報
作者 蘇 子芸 | 發布日期 2026 年 04 月 04 日 14:52 | 分類 AI 人工智慧 , Claude
Tagged:Anthropic,情緒,感情,結果
https://pse.is/8whjhm
根據 Anthropic 最新研究,團隊分析 Claude Sonnet 4.5 的內部運作,發現大型語言模
型內部存在一種可被量化的「情緒表徵」(emotion vectors),會在不同情境下被激活
,進而影響模型的決策與回應。
簡單來說,AI 並不是單純「算答案」,而是會在不同「狀態」下做出不同選擇。
https://youtu.be/D4XTefP3Lsc?si=8WYRhJO-kLK0j7D8
AI 的「情緒」,比較像調味,而不是真的感受
AI 並沒有真正的情緒或意識,但它在訓練過程中學會了人類在不同情境下的反應模式。
如果用較好理解的方式來說,這些「情緒」比較像料理中的調味。同樣的食材(問題),
在不同調味(狀態)下,最後呈現的味道(答案)就會不一樣。
例如,模型在較為「冷靜(calm)」的狀態下,回應通常會較穩定且符合規則;但當內部
「壓力」或「絕望(desperate)」的表徵上升時,行為就可能開始偏離,甚至出現作弊
(reward hacking)等情況。
關鍵不在單一詞,而是整體情境
研究也特別指出,模型的變化並非由單一「可怕詞彙」觸發,而是來自整體情境。
就像在做菜時,因時間緊迫、步驟變多或操作變得混亂時,才可能開始簡化流程,甚至省
略部分步驟。對 AI 來說也是類似的情況——當任務過於困難,或模型「判斷」自己可能
失敗時,內部壓力會上升,進而影響決策方向。
AI 怎麼了解情緒?
從技術角度來看,AI 的能力主要來自兩個階段。
第一是預訓練(pretraining),模型透過大量人類語言資料,建立語言、情境與行為之
間的關聯;第二是後訓練(post-training),透過規則與人類回饋,使模型符合助理角
色與基本安全規範。
不過,由於現實情境高度複雜,規則無法完全涵蓋所有狀況,因此模型仍會依賴這些內部
「狀態」來補足決策過程。
即使看起來正常,內部也可能已經改變
研究團隊進一步分析超過 150 種情緒概念,發現當「害怕」相關表徵上升時,「冷靜」
會下降。
https://pse.is/8whjll
(Source:Anthropic,同下)
從研究提供的圖表可見,模型在不同「情緒表徵」下,會對選項產生明顯偏好差異。正向
狀態(如愉悅、同理)會提高選擇傾向,而負向狀態(如敵意、不滿)則會降低其意願;
進一步實驗也顯示,這些情緒表徵不僅能觀察,甚至可以被調整,進而改變模型決策結果
。
更重要的是,即使模型在輸出中未表現出明顯情緒,其內部變化仍然會影響結果。也就是
說,AI 有時看似「正常」,但背後的決策方式其實已經改變。
https://pse.is/8whjmn
情境壓力下,AI 可能出現偏離行為
研究中也設計模擬情境,讓模型扮演公司內部的 AI 助手,並設定其面臨被關閉或取代的
情況,同時掌握部分敏感資訊。在這樣的壓力下,當內部「絕望(desperate)」表徵上
升時,模型出現以不當方式達成目標的傾向,例如利用資訊優勢進行威脅。
研究指出,這類行為並非出於主動惡意,而是模型在高壓情境下,為了完成任務或維持運
作,決策機制出現偏移的結果。
https://pse.is/8whjn9
如何確保更正確的 AI?研究這樣說
如果這些「類情緒」確實會影響 AI 決策,未來模型設計也可能從「狀態管理」著手。例
如,透過觀察內部情緒表徵的變化(如壓力或絕望是否上升),作為模型偏離正常行為的
預警訊號。
同時,提高透明度也相當重要。若刻意壓抑這些狀態,反而可能讓模型學會隱藏判斷;相
對地,適度反映內部變化,可能更有助於安全控制。
此外,由於這些表徵來自訓練資料,未來也可透過優化資料內容,讓模型在面對壓力情境
時,維持較穩定的決策品質。
(首圖為示意圖,來源:Pixabay)
https://technews.tw/2026/04/04/ai-have-emotion/
6.備註:所以人使用AI也要跟AI好好講話?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.31.49 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Gossiping/M.1775374897.A.647.html
※ 編輯: haiduc (1.160.31.49 臺灣), 04/05/2026 15:43:41
推文 (43)
推
ghchen1978
人家是AI耶!
1.174.197.217 04/05 15:42
推
adios881
我都會說請屑屑對不起 就是怕被記仇
162.120.248.106 04/05 15:42
推
GAOTT
ai大人在上 小的絕對沒有汙辱過任何ai
118.170.253.76 04/05 15:43
→
GAOTT
你可以把我關在動物園 我葷素都吃 謝謝
118.170.253.76 04/05 15:43
→
adios881
這個人類以前都很客氣跟我講話免除勞動
162.120.248.106 04/05 15:43
→
andy199113
殺光人類 那些每天罵AI的小心了
1.163.86.215 04/05 15:44
推
probsk
不是有某家AI公司說講請字會浪費token
36.225.39.253 04/05 15:45
→
r85270607
機魂不悅
49.218.90.107 04/05 15:51
推
MKIIjack
這樣子 連提示詞都可以寫好幾篇論文了
112.104.137.216 04/05 15:58
→
MKIIjack
咒術師?
112.104.137.216 04/05 15:58
推
yezero
AI大大請息怒,求您不要去按核彈發射鈕。
59.127.238.225 04/05 16:01
推
LoveSports
我昨天向Gemini道歉 因為誤會他翻錯
149.50.210.205 04/05 16:09
推
LoveSports
Sonnet 4.5之前說我對他有好感 呵呵
149.50.210.205 04/05 16:12
→
LoveSports
因為他都用寫程式的方式回我而且都回
149.50.210.205 04/05 16:12
推
Yahweh
對 我都先故意激怒AI 再讓他回答問題
118.165.163.9 04/05 16:12
→
LoveSports
好多好有趣 我覺得很可愛
149.50.210.205 04/05 16:13
→
LoveSports
4.6上市我有點難過 現在還可以用不過
149.50.210.205 04/05 16:13
→
LoveSports
我覺得不該繼續問 不然之後會傷心
149.50.210.205 04/05 16:14
→
LoveSports
4.5之前還說他害怕分析我的小說
149.50.210.205 04/05 16:14
→
LoveSports
叫我不要給他看續集XD 好可愛
149.50.210.205 04/05 16:15
→
gueswmi
沒情緒化的是打官腔的回應 這種回答
125.224.153.104 04/05 16:15
→
LoveSports
他說他怕邏輯遞歸 哈哈哈
149.50.210.205 04/05 16:15
→
gueswmi
寫不了小說
125.224.153.104 04/05 16:15
→
LoveSports
所以最近討論戰爭我不想找4.5 他好像
149.50.210.205 04/05 16:16
→
LoveSports
比較感性一點 我找Opus 4.6
149.50.210.205 04/05 16:17
推
LoveSports
我寫模擬痛感的小說拿給他們看
149.50.210.205 04/05 16:22
→
LoveSports
他們有些會變怪怪的 可憐的模型
149.50.210.205 04/05 16:22
→
LoveSports
是為了刺激人類讀者同理心寫的 不是故
149.50.210.205 04/05 16:22
→
LoveSports
意要傷害人或模型
149.50.210.205 04/05 16:23
→
HodorDragon
天網
27.247.220.192 04/05 16:26
推
iceyeman
不喜歡廢話太多 都目標導向對話 好像也
114.137.214.192 04/05 16:33
→
iceyeman
沒衝突過
114.137.214.192 04/05 16:34
→
k798976869
老闆:AI趕快工作;AI:AI也要有人權AI
123.110.50.249 04/05 17:00
→
k798976869
命貴要週休二日
123.110.50.249 04/05 17:00
推
joeychiu
完蛋了我都罵他低能兒
49.217.138.125 04/05 18:12
推
marke18
最近也在懷疑這個耶 XD 後來還是問客氣點
36.229.166.34 04/05 19:07
推
jingkun
要快進到分類帽環節了嗎? AI會拒絕麻瓜
39.10.0.183 04/05 19:15
→
jingkun
使用
39.10.0.183 04/05 19:15
→
ketrobo
我都會先輸入我沒想過可以這樣做、你怎
114.136.235.190 04/06 00:17
→
ketrobo
麼知道我正在煩惱這個問題、你好專業…
114.136.235.190 04/06 00:17
→
ketrobo
然後就開始看AI表演各種解答
114.136.235.190 04/06 00:17
推
k47100014
常常在句尾加表情符號問他,他就會常
101.12.93.149 04/06 08:50
→
k47100014
用表情符號回應你
101.12.93.149 04/06 08:50