AI 模型越講越歪樓!最新研究發現:AI 對話愈深入,表現愈糟糕
https://tinyurl.com/ylvt36k2
人工智慧(AI)已經不是什麼遙不可及的未來科技,從寫作、翻譯到客服,它早就成為我
們工作與生活的一部分。但你有沒有發現一件事:剛開始和 AI 聊天時,它總是回答得頭
頭是道,讓人驚呼「也太聰明了吧!」
但一旦對話拉長、你問得更深入,AI就開始卡住、兜不回來,甚至出現自相矛盾的情況。
這並不是你遇到了Bug(程式錯誤),也不是你問得太難,而是一個所有語言模型都面臨
的通病。
根據Microsoft和Salesforce最新研究,這種越聊越不對勁的現象,其實是語言模型在對
話中普遍存在的結構性問題。研究團隊模擬了20萬筆對話,測試了包含GPT-4.1、Claude
3.7、Gemini 2.5 Pro在內的15種主流模型。
結果發現,這些模型在第一次對話中的表現非常出色,成功率高達90%;但一旦進入第二
次、第三次……成功率就像跳水般下降,只剩下約60%。更令人吃驚的是,這個問題幾乎
無法靠目前常見的技術調整解決,也讓人開始反思:我們所謂發展快速先進的AI,真的準
備好成為對話中的夥伴了嗎?
AI對話為什麼越聊越糊塗?
你可能以為AI出錯,是因為它記不住前面的內容。但實際上,問題的關鍵不在記性不好,
而是「太急著表現」。研究指出,當語言模型在對話中接收到不完整的資訊時,它往往會
急著下結論,就像學生考試時還沒看完題目就開始寫答案。結果是,前面的假設錯了,後
面的邏輯也一路歪掉。不但無法修正,還會自我堅持,繼續補充一堆看似合理、其實錯得
離譜的細節。
這種現象讓人聯想到人類的「強辯」行為,但AI的版本更棘手,因為它不具備我們的懷疑
機制。我們人類如果說錯話,有時會停下來想想:「欸,好像不太對?」然後修正,但AI
模型目前還做不到這一點。它們無法意識到「我是不是不確定這件事?」一旦答錯,就一
路錯到底。
這也顯示一個關鍵問題:語言模型目前的設計邏輯,還是偏向一次性任務。可惜,現實中
的對話並不是這樣進行的。我們經常是一邊說、一邊釐清需求,問題是模糊的、資訊是漸
進式的。
改參數、加推理,為什麼都沒用?
遇到問題,工程師們當然會立刻想:「是不是參數設錯了?」於是研究團隊試了所有常見
的調整手段:調整溫度(temperature)參數(讓回答更保守或更冒險)、延長記憶長度
、提升推理模組的能力等等。但這些努力,幾乎都無法明顯改善模型在多輪對話中的表現
。換句話說,這不是模型參數調得不夠好,而是架構上的天生缺陷。
這背後的問題,其實出在訓練邏輯。過去語言模型的訓練大多使用單次問答的資料:一句
話問、一句話答,任務清楚、資訊完整。但實際生活中,深入多次對話才是常態,而且常
常一開始就資訊不清、問題不明。模型不習慣在模糊中摸索,就像一個只會背答案的學生
,突然被拉去參加即興辯論比賽,自然是招架不住。
未來如果要讓AI成為真正的對話幫手,我們也許不能再把訓練重點放在「更準確地回答」
,而要轉向訓練它「更懂得等待與釐清」。舉例來說,模型應該學會辨識使用者問題的不
確定性,並主動反問:「你是指這個意思嗎?還是那個?」也許它還該學會「不急著給答
案」,而是試著引導對話走向更清楚的方向。這才是對話真正的本質,而非只是問與答的
機械式循環。
這次的研究結果,打破了我們對語言模型的想像。表面上看,AI越來越能模仿人類語言、
理解語意,但當我們拉長對話、要求它「聽懂人話」,問題就浮現了。AI聰明沒錯,但還
不夠謙虛、不夠小心,也不夠願意說「我不知道」。這反而讓我們更理解了人類對話的精
妙之處:我們不只是會說話,而是懂得等對方說完,懂得保留模糊,也懂得在必要時改變
想法。
下一步的語言模型發展,或許該從「更會講」轉向「更會聽」;從「給答案」轉向「與人
探索」。要做到這一點,還有很長一段路要走,但這也正是我們讓科技真正貼近人性、創
造價值的關鍵所在。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.177.1.4 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1747963138.A.E43.html
推文 (182)
推
flash789
AI泡沫 怕.jpg
223.139.104.114 05/23 09:20
推
zonppp
魔鬼終結者要來了
36.226.212.61 05/23 09:22
推
longlyeagle
雀食
57.140.96.51 05/23 09:39
推
GoodLuck01
好像有看了什麼, 但又像沒看了什麼
61.221.155.73 05/23 09:43
→
xvited945
讓AI聽懂人話要很長一段路?當初說
36.224.197.167 05/23 09:45
→
xvited945
要讓Siri聰明一點也說要很久,結果
36.224.197.167 05/23 09:45
→
xvited945
各語言模型如雨後春筍問世,好了啦
36.224.197.167 05/23 09:45
→
xvited945
記者
36.224.197.167 05/23 09:45
推
Ryoma
真人都會聽不懂人話或沒邏輯應答了
211.23.161.10 05/23 09:56
推
hensel
蹲的越久 腳就越麻
114.136.168.241 05/23 10:22
推
lovebridget
這篇AI寫的嗎
220.130.196.217 05/23 10:35
推
endisonlin
我也覺得這記者很讚
42.72.103.1 05/23 10:46
推
lovebridget
其實人更不會聽吧 還會反嗆陷害
220.130.196.217 05/23 10:49
→
lovebridget
AI你跟他說不對他馬上改口 我還覺得
220.130.196.217 05/23 10:50
→
lovebridget
他太會順著你太舔不準確
220.130.196.217 05/23 10:50
推
lastsodeep
Siri 有聰明過嗎?
101.10.222.202 05/23 11:09
噓
alvinlin
無聊。這話題已經大概是半年前的事
180.177.212.126 05/23 11:09
→
alvinlin
情了。最近有改善很多了啦
180.177.212.126 05/23 11:09
推
mmonkeyboyy
AI 就跟某些(國)人一樣 舔狗啊~
73.70.62.211 05/23 11:21
噓
alvinlin
記者不要老是把「舊」聞當「新」聞
180.177.212.126 05/23 11:30
→
alvinlin
寫好嗎
180.177.212.126 05/23 11:30
→
alvinlin
https://arxiv.org/abs/2307.03172
180.177.212.126 05/23 11:30
→
la8day
人會說:乾我屁事 這鍋為什麼要我
61.230.28.15 05/23 11:58
→
la8day
揹 你去找其他人
61.230.28.15 05/23 11:58
推
motan
人類需要的是方便的工具,而不是真
101.12.176.125 05/23 12:19
→
motan
的新物種
101.12.176.125 05/23 12:19
推
zaiter
蠻低能的文章 文組寫的不意外
49.215.156.48 05/23 13:22
→
zaiter
感覺這記者還有將這個 比AI還智障
49.215.156.48 05/23 13:23
→
Arashi0731
真人也是吧,講一講就不然你要投國
111.83.107.120 05/23 13:37
→
Arashi0731
民黨?
111.83.107.120 05/23 13:37
→
piyobearman
人和人談到後面也是啦
101.12.146.2 05/23 13:44
→
kaltu
Bert 時代就在講的東西撐過GPT用了
100.8.245.106 05/23 13:48
→
kaltu
半個decade終於出現在文組的文章裡
100.8.245.106 05/23 13:48
→
kaltu
,所以說工程師面對跟技術脫節或根
100.8.245.106 05/23 13:48
→
kaltu
本非技術的主管永遠要記得他們的知
100.8.245.106 05/23 13:48
→
kaltu
識永遠落後時代,但他們又有實權
100.8.245.106 05/23 13:48
推
Hack
這研究不是這個月才release的嗎 連
42.79.103.235 05/23 13:59
→
Hack
文章都不會點進去看 怎麼還好意思
42.79.103.235 05/23 14:00
→
Hack
嗆Zzz
42.79.103.235 05/23 14:00
推
Hack
留言的那篇 連文章標題都不對…
42.79.103.235 05/23 14:03
→
tokeep
不是AI沒用,是你的AI沒用
118.231.192.235 05/23 14:15
推
kakar0to
靠杯 講半天就是說AI沒辦法好好
1.34.223.241 05/23 14:41
→
kakar0to
思考在回答 之前黃仁勳就有說這能
1.34.223.241 05/23 14:41
→
kakar0to
解決了
1.34.223.241 05/23 14:41
→
Killercat
其他不敢說 不過按照向量資料庫原理
57.140.96.34 05/23 14:43
→
Killercat
來講 要讓他講出"我不知道"是很難的
57.140.96.34 05/23 14:44
→
Killercat
因為無論如何該embedding附近都可以
57.140.96.34 05/23 14:44
→
Killercat
找到解
57.140.96.34 05/23 14:44
→
acgotaku
其實訓練資料越多 回答的越正確
1.169.171.23 05/23 15:22
→
acgotaku
只是這個正確答案 無法迎合人類
1.169.171.23 05/23 15:22
→
acgotaku
的正確答案
1.169.171.23 05/23 15:23
→
acgotaku
就像我們都很難跟諾貝爾獎得主溝通
1.169.171.23 05/23 15:25
→
acgotaku
但是普通人與普通人溝同就能對頻
1.169.171.23 05/23 15:25
推
fyb
到時客服人員都不在是真人 Ai主動
43.210.0.7 05/23 15:45
→
fyb
思考解決所有問題
43.210.0.7 05/23 15:45
推
abccbaandy
真實阿,一兩句解決不了的再問也是
1.34.13.108 05/23 16:03
→
abccbaandy
浪費時間
1.34.13.108 05/23 16:03
→
D600dust
不就跟青鳥一樣 不會認錯
1.160.220.193 05/23 16:53
→
yesyesyesyes
ai 回答的是你要的,不是正確解答
101.9.100.212 05/23 17:00
推
j401f2
真人有好到哪裡去嗎…一堆有偏見的
42.70.175.12 05/23 17:45
→
j401f2
根本無法理性溝通
42.70.175.12 05/23 17:45
噓
alvinlin
感覺有人英文看不懂。看中文吧。1年
180.177.212.126 05/23 18:16
→
alvinlin
了
180.177.212.126 05/23 18:16
→
alvinlin
https://zhuanlan.zhihu.com/p/6786
180.177.212.126 05/23 18:16
→
alvinlin
14880
180.177.212.126 05/23 18:16
推
Hack
要不要去看看眼睛 標題一樣嗎?這篇
42.79.103.235 05/23 18:43
→
Hack
文章的原文是什麼時候發表的要不要
42.79.103.235 05/23 18:43
→
Hack
看看
42.79.103.235 05/23 18:43
推
Hack
標題抓到「Lost」就開噴Zzz 兩篇探
42.79.103.235 05/23 18:52
→
Hack
討的是同一件事情嗎?這年頭讀書不
42.79.103.235 05/23 18:52
→
Hack
犯法 多念一點吧
42.79.103.235 05/23 18:52
→
toaste791214
其實人腦的思維、邏輯判斷還是贏過
42.79.100.127 05/23 20:02
→
toaste791214
電腦的,不然上帝為什麼要創造人?
42.79.100.127 05/23 20:02
→
toaste791214
而不是創造電腦?另外光看現在的研
42.79.100.127 05/23 20:02
→
toaste791214
發人員、決策者還是人類就知道了。A
42.79.100.127 05/23 20:02
→
toaste791214
I說穿就是很方便的自動化軟體而已。
42.79.100.127 05/23 20:02
→
wasitora
上帝XDDDDD
36.231.14.177 05/23 20:08
推
wrt
操 這AI是傻鳥嗎?死不認錯
124.218.220.239 05/23 21:40
→
alvinlin
根據兩篇論文——2024年發表的《Los
180.177.212.126 05/24 01:42
→
alvinlin
t in the Middle: How Language Mod
180.177.212.126 05/24 01:42
→
alvinlin
els Use Long Contexts》(簡稱Lost
180.177.212.126 05/24 01:42
→
alvinlin
in the Middle)和2025年發表的《L
180.177.212.126 05/24 01:42
→
alvinlin
LMs Get Lost in Multi-Turn Conver
180.177.212.126 05/24 01:42
→
alvinlin
sation》(簡稱Lost in Conversatio
180.177.212.126 05/24 01:42
→
alvinlin
n)——這兩篇論文都討論了大型語言
180.177.212.126 05/24 01:42
→
alvinlin
模型(LLMs)在處理長上下文或多輪
180.177.212.126 05/24 01:42
→
alvinlin
對話時的能力限制,以下幫助你理解
180.177.212.126 05/24 01:42
→
alvinlin
兩者的關係與差異。
180.177.212.126 05/24 01:42
→
alvinlin
1. 兩篇論文的主題與核心問題
180.177.212.126 05/24 01:42
→
alvinlin
Lost in the Middle (2024)
180.177.212.126 05/24 01:42
→
alvinlin
主題:探討LLMs在處理「長上下文」
180.177.212.126 05/24 01:42
→
alvinlin
時,對於關鍵資訊在不同位置(開頭
180.177.212.126 05/24 01:42
→
alvinlin
、中間、結尾)的利用能力。
180.177.212.126 05/24 01:42
→
alvinlin
核心問題:當關鍵資訊位於長上下文
180.177.212.126 05/24 01:42
→
alvinlin
的中間時,模型的表現顯著下降,呈
180.177.212.126 05/24 01:42
→
alvinlin
現「U型曲線」(首尾好,中間差),
180.177.212.126 05/24 01:42
→
alvinlin
即「中間迷失」現象。
180.177.212.126 05/24 01:42
→
alvinlin
重點場景:多文件問答、key-value檢
180.177.212.126 05/24 01:42
→
alvinlin
索等需要在長文本中定位資訊的任務
180.177.212.126 05/24 01:42
→
alvinlin
。
180.177.212.126 05/24 01:42
→
alvinlin
Lost in Conversation (2025)
180.177.212.126 05/24 01:42
→
alvinlin
主題:探討LLMs在「多輪對話」中,
180.177.212.126 05/24 01:42
→
alvinlin
尤其是用戶需求逐步揭露(underspec
180.177.212.126 05/24 01:42
→
alvinlin
ified, multi-turn)時的表現。
180.177.212.126 05/24 01:42
→
alvinlin
核心問題:LLMs在多輪、需求逐步揭
180.177.212.126 05/24 01:42
→
alvinlin
露的對話中,表現大幅下降,且 unre
180.177.212.126 05/24 01:42
→
alvinlin
liability(不穩定性)大幅增加,容
180.177.212.126 05/24 01:42
→
alvinlin
易「迷失在對話中」。
180.177.212.126 05/24 01:42
→
alvinlin
重點場景:模擬用戶逐步補充需求的
180.177.212.126 05/24 01:42
→
alvinlin
多輪對話,涵蓋程式設計、數學、摘
180.177.212.126 05/24 01:42
→
alvinlin
要等多種生成任務。
180.177.212.126 05/24 01:42
→
alvinlin
2. 兩者的關係與差異說明:
180.177.212.126 05/24 01:42
→
alvinlin
兩者都關注LLMs在「長期記憶」或「
180.177.212.126 05/24 01:42
→
alvinlin
多步推理」場景下的能力瓶頸,在202
180.177.212.126 05/24 01:42
→
alvinlin
4年論文聚焦於靜態長文本的資訊定位
180.177.212.126 05/24 01:42
→
alvinlin
與利用。在2025年論文聚焦於動態多
180.177.212.126 05/24 01:42
→
alvinlin
輪對話中資訊逐步揭露與模型可靠性
180.177.212.126 05/24 01:42
→
alvinlin
。
180.177.212.126 05/24 01:42
→
alvinlin
兩者的「迷失」現象有相似之處(即
180.177.212.126 05/24 01:42
→
alvinlin
模型無法有效整合所有上下文資訊)
180.177.212.126 05/24 01:42
→
alvinlin
,而具體場景、評估方法和解釋略有
180.177.212.126 05/24 01:42
→
alvinlin
不同。
180.177.212.126 05/24 01:43
→
alvinlin
3. 2025年論文是否提出更多論點或解
180.177.212.126 05/24 01:43
→
alvinlin
決方案?
180.177.212.126 05/24 01:43
→
alvinlin
2025年論文的進一步貢獻:
180.177.212.126 05/24 01:43
→
alvinlin
更貼近實際應用場景:強調多輪、需
180.177.212.126 05/24 01:43
→
alvinlin
求逐步揭露的對話,這是現實用戶與A
180.177.212.126 05/24 01:43
→
alvinlin
I互動的常態。
180.177.212.126 05/24 01:43
→
alvinlin
提出「可靠性 unreliability」新指
180.177.212.126 05/24 01:43
→
alvinlin
標:不僅看平均表現,還關注模型在
180.177.212.126 05/24 01:43
→
alvinlin
多次對話中的穩定性(同一需求多次
180.177.212.126 05/24 01:43
→
alvinlin
對話結果差異大)。
180.177.212.126 05/24 01:43
→
alvinlin
大規模實驗:涵蓋15個主流LLM、6大
180.177.212.126 05/24 01:43
→
alvinlin
類生成任務,並提出「sharding」方
180.177.212.126 05/24 01:43
→
alvinlin
法將單輪任務轉為多輪對話。
180.177.212.126 05/24 01:43
→
alvinlin
分析失敗原因:如模型過早下結論、
180.177.212.126 05/24 01:43
→
alvinlin
過度依賴前一輪錯誤答案、對中間回
180.177.212.126 05/24 01:43
→
alvinlin
合資訊利用不足等。
180.177.212.126 05/24 01:43
→
alvinlin
測試多種緩解策略:如在最後一輪總
180.177.212.126 05/24 01:43
→
alvinlin
結所有需求(recap)、每輪重複所有
180.177.212.126 05/24 01:43
→
alvinlin
已知需求(snowball),但發現這些
180.177.212.126 05/24 01:43
→
alvinlin
方法只能部分緩解,無法徹底解決。
180.177.212.126 05/24 01:43
→
alvinlin
總結:2025年論文雖不是簡單重複202
180.177.212.126 05/24 01:43
→
alvinlin
4年的發現,而是將「迷失」現象推廣
180.177.212.126 05/24 01:43
→
alvinlin
到更貼近真實用戶互動的多輪對話場
180.177.212.126 05/24 01:43
→
alvinlin
景,並提出了新的評估指標與分析框
180.177.212.126 05/24 01:43
→
alvinlin
架,對LLM未來改進提出了更具體的挑
180.177.212.126 05/24 01:43
→
alvinlin
戰。
180.177.212.126 05/24 01:43
→
alvinlin
4. 總結對比表
180.177.212.126 05/24 01:43
→
alvinlin
概念延伸
180.177.212.126 05/24 01:43
→
alvinlin
LostInTheMiddle_2024
180.177.212.126 05/24 01:43
→
alvinlin
+主題: 長上下文資訊利用
180.177.212.126 05/24 01:43
→
alvinlin
+場景: 多文件QA, key-value檢索
180.177.212.126 05/24 01:43
→
alvinlin
+貢獻: 提出新評估協議
180.177.212.126 05/24 01:43
→
alvinlin
+現象: U型效應(首尾好,中間差)
180.177.212.126 05/24 01:43
→
alvinlin
LostInConversation_2025
180.177.212.126 05/24 01:43
→
alvinlin
+主題: 多輪對話下的可靠性
180.177.212.126 05/24 01:43
→
alvinlin
+現象: 多輪下表現大幅下降, 不穩定
180.177.212.126 05/24 01:43
→
alvinlin
性增加
180.177.212.126 05/24 01:43
→
alvinlin
+場景: 需求逐步揭露的多輪生成
180.177.212.126 05/24 01:43
→
alvinlin
+貢獻: 新指標(可靠性) : , 大規模
180.177.212.126 05/24 01:43
→
alvinlin
多模型多任務實驗, 失敗原因分析,
180.177.212.126 05/24 01:43
→
alvinlin
緩解策略測試
180.177.212.126 05/24 01:43
→
alvinlin
5. 結論
180.177.212.126 05/24 02:02
→
alvinlin
這兩篇論文不是講同一件事,但2025
180.177.212.126 05/24 02:02
→
alvinlin
年論文在2024年「長上下文迷失」的
180.177.212.126 05/24 02:02
→
alvinlin
基礎上,將問題推廣到「多輪對話」
180.177.212.126 05/24 02:02
→
alvinlin
這一更貼近實際應用的場景,並提出
180.177.212.126 05/24 02:02
→
alvinlin
了更多新的觀察、指標和挑戰。
180.177.212.126 05/24 02:02
→
alvinlin
2025年論文提出了更多論點與分析,
180.177.212.126 05/24 02:02
→
alvinlin
但目前尚未有徹底的解決方案,僅測
180.177.212.126 05/24 02:02
→
alvinlin
試了一些緩解方法,效果有限。
180.177.212.126 05/24 02:02
→
alvinlin
如果你關心LLM在真實對話應用中的可
180.177.212.126 05/24 02:02
→
alvinlin
靠性,2025年論文的貢獻更大、更具
180.177.212.126 05/24 02:02
→
alvinlin
啟發性。
180.177.212.126 05/24 02:02
→
alvinlin
我指的是「新」聞。不是翻譯。也不
180.177.212.126 05/24 02:03
→
alvinlin
是早知道的東西。
180.177.212.126 05/24 02:04
推
pacino
這篇真的讚。
36.230.30.221 05/24 09:02
推
alex01
很像小朋友啊
223.136.175.36 05/24 14:57
→
pc1234
外行人看熱鬧 內行人看門道
111.82.189.178 05/25 15:15
→
vampirelin
就懂點皮毛,然後一本正經的胡說八
101.10.236.56 05/26 03:06
→
vampirelin
道
101.10.236.56 05/26 03:06