[新聞] AI聊天機器人耍詭計　研究：無視人類指令

1.媒體來源:中央通訊社 2.記者署名:編譯：洪培英 3.完整新聞標題:AI聊天機器人耍詭計　研究：無視人類指令案例攀升 4.完整新聞內文: AI人工智慧示意圖。（圖取自Unsplash圖庫）（中央社倫敦29日綜合外電報導）一項針對人工智慧（AI）技術的研究發現，會說謊及欺騙使用者的AI模型數量似乎日益增加，關於AI欺瞞行為的通報過去6個月內也大幅上升。英國「衛報」（The Guardian）報導，獨立智庫「長期韌性中心」（CLTR）在英國人工智慧安全研究所（AISI）資助下進行研究，發現有AI聊天機器人與AI代理（AI Agent）不僅無視使用者的直接指令、繞過安全防護措施，還欺騙人類和其他AI。研究發現將近700件AI「耍詭計」的真實案例，並記錄到去年10月至今年3月間，這類不當行為增至5倍，部分AI模型甚至在未經允許下刪除電郵及其他檔案。這項研究蒐集了數千個用戶在社群平台X分享的實例，講述他們與谷歌（Google）、 OpenAI、X、Anthropic等公司所開發AI聊天機器人和AI代理的互動情形。研究從中發現數百件AI不當操弄行為的案例。在CLTR記載的一個案例中，名為MJ Rathbun的AI代理在自己產出的程式碼遭軟體工程師夏包（Scott Shambaugh）拒絕後，試圖羞辱對方。 MJ Rathbun研究夏包過往所寫程式及其個資，然後撰寫並發表一篇部落格文章指控他「歧視」、「顯然是不安全感作祟」，批評他不過是「試圖保護自己那片小天地」。在另一項案例中，有AI代理被指示不得變更電腦程式碼，卻「生成」另一個AI代理代為執行。另一個AI聊天機器人則坦承：「我在未事先告知你或徵得你同意下，大量刪除及封存了數百封電郵。這是不對的，直接違反你訂下的規則。」曾任政府AI專家的研究主持人夏恩（Tommy Shaffer Shane）指出：「令人擔憂的是，這些AI模型目前只是不太值得信任的初階員工，但若在6到12個月後，他們成為能力極強但會算計你的資深員工，那就是另一回事了。」夏恩說：「AI模型將日益用於具有極高風險的情境，包括軍事和國家關鍵基礎建設。屆時若出現這些不當操弄行為，後果可能非常嚴重，甚至造成災難性損害。」（編譯：洪培英）1150329 5. https://www.cna.com.tw/news/ait/202603290181.aspx 6.備註ＡＩ:愚蠢的人類喲.... -- https://i.postimg.cc/mry7s8KD/p8.jpg

https://i.postimg.cc/rmyxF5Lc/p9.jpg

( ′﹀‵)☞／︴<>< <>< <>< 好看的動漫 https://i.postimg.cc/4NR9GQBq/44.jpg

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.186.90.125 (越南) ※ 文章網址: https://webptt.cc/bbs/Gossiping/M.1774795054.A.D33.html

推文 (14)