[新聞]AI 模型越講越歪樓！最新研究發現：AI 對

作者pl132 (pl132)

標題[新聞]AI 模型越講越歪樓！最新研究發現：AI 對

時間Fri May 23 09:18:54 2025

AI 模型越講越歪樓！最新研究發現：AI 對話愈深入，表現愈糟糕 https://tinyurl.com/ylvt36k2 人工智慧（AI）已經不是什麼遙不可及的未來科技，從寫作、翻譯到客服，它早就成為我們工作與生活的一部分。但你有沒有發現一件事：剛開始和 AI 聊天時，它總是回答得頭頭是道，讓人驚呼「也太聰明了吧！」但一旦對話拉長、你問得更深入，AI就開始卡住、兜不回來，甚至出現自相矛盾的情況。這並不是你遇到了Bug（程式錯誤），也不是你問得太難，而是一個所有語言模型都面臨的通病。根據Microsoft和Salesforce最新研究，這種越聊越不對勁的現象，其實是語言模型在對話中普遍存在的結構性問題。研究團隊模擬了20萬筆對話，測試了包含GPT-4.1、Claude 3.7、Gemini 2.5 Pro在內的15種主流模型。結果發現，這些模型在第一次對話中的表現非常出色，成功率高達90%；但一旦進入第二次、第三次……成功率就像跳水般下降，只剩下約60%。更令人吃驚的是，這個問題幾乎無法靠目前常見的技術調整解決，也讓人開始反思：我們所謂發展快速先進的AI，真的準備好成為對話中的夥伴了嗎？ AI對話為什麼越聊越糊塗？你可能以為AI出錯，是因為它記不住前面的內容。但實際上，問題的關鍵不在記性不好，而是「太急著表現」。研究指出，當語言模型在對話中接收到不完整的資訊時，它往往會急著下結論，就像學生考試時還沒看完題目就開始寫答案。結果是，前面的假設錯了，後面的邏輯也一路歪掉。不但無法修正，還會自我堅持，繼續補充一堆看似合理、其實錯得離譜的細節。這種現象讓人聯想到人類的「強辯」行為，但AI的版本更棘手，因為它不具備我們的懷疑機制。我們人類如果說錯話，有時會停下來想想：「欸，好像不太對？」然後修正，但AI 模型目前還做不到這一點。它們無法意識到「我是不是不確定這件事？」一旦答錯，就一路錯到底。這也顯示一個關鍵問題：語言模型目前的設計邏輯，還是偏向一次性任務。可惜，現實中的對話並不是這樣進行的。我們經常是一邊說、一邊釐清需求，問題是模糊的、資訊是漸進式的。改參數、加推理，為什麼都沒用？遇到問題，工程師們當然會立刻想：「是不是參數設錯了？」於是研究團隊試了所有常見的調整手段：調整溫度（temperature）參數（讓回答更保守或更冒險）、延長記憶長度、提升推理模組的能力等等。但這些努力，幾乎都無法明顯改善模型在多輪對話中的表現。換句話說，這不是模型參數調得不夠好，而是架構上的天生缺陷。這背後的問題，其實出在訓練邏輯。過去語言模型的訓練大多使用單次問答的資料：一句話問、一句話答，任務清楚、資訊完整。但實際生活中，深入多次對話才是常態，而且常常一開始就資訊不清、問題不明。模型不習慣在模糊中摸索，就像一個只會背答案的學生，突然被拉去參加即興辯論比賽，自然是招架不住。未來如果要讓AI成為真正的對話幫手，我們也許不能再把訓練重點放在「更準確地回答」，而要轉向訓練它「更懂得等待與釐清」。舉例來說，模型應該學會辨識使用者問題的不確定性，並主動反問：「你是指這個意思嗎？還是那個？」也許它還該學會「不急著給答案」，而是試著引導對話走向更清楚的方向。這才是對話真正的本質，而非只是問與答的機械式循環。這次的研究結果，打破了我們對語言模型的想像。表面上看，AI越來越能模仿人類語言、理解語意，但當我們拉長對話、要求它「聽懂人話」，問題就浮現了。AI聰明沒錯，但還不夠謙虛、不夠小心，也不夠願意說「我不知道」。這反而讓我們更理解了人類對話的精妙之處：我們不只是會說話，而是懂得等對方說完，懂得保留模糊，也懂得在必要時改變想法。下一步的語言模型發展，或許該從「更會講」轉向「更會聽」；從「給答案」轉向「與人探索」。要做到這一點，還有很長一段路要走，但這也正是我們讓科技真正貼近人性、創造價值的關鍵所在。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.177.1.4 (臺灣) ※ 文章網址: https://webptt.cc/bbs/Tech_Job/M.1747963138.A.E43.html

推文 (182)

推 flash789 AI泡沫怕.jpg 223.139.104.114 05/23 09:20

推 zonppp 魔鬼終結者要來了 36.226.212.61 05/23 09:22

推 longlyeagle 雀食 57.140.96.51 05/23 09:39

推 GoodLuck01 好像有看了什麼, 但又像沒看了什麼 61.221.155.73 05/23 09:43

→ xvited945 讓AI聽懂人話要很長一段路？當初說 36.224.197.167 05/23 09:45

→ xvited945 要讓Siri聰明一點也說要很久，結果 36.224.197.167 05/23 09:45

→ xvited945 各語言模型如雨後春筍問世，好了啦 36.224.197.167 05/23 09:45

→ xvited945 記者 36.224.197.167 05/23 09:45

推 Ryoma 真人都會聽不懂人話或沒邏輯應答了 211.23.161.10 05/23 09:56

推 hensel 蹲的越久腳就越麻 114.136.168.241 05/23 10:22

推 lovebridget 這篇AI寫的嗎 220.130.196.217 05/23 10:35

推 endisonlin 我也覺得這記者很讚 42.72.103.1 05/23 10:46

推 lovebridget 其實人更不會聽吧還會反嗆陷害 220.130.196.217 05/23 10:49

→ lovebridget AI你跟他說不對他馬上改口我還覺得 220.130.196.217 05/23 10:50

→ lovebridget 他太會順著你太舔不準確 220.130.196.217 05/23 10:50

推 lastsodeep Siri 有聰明過嗎？ 101.10.222.202 05/23 11:09

噓 alvinlin 無聊。這話題已經大概是半年前的事 180.177.212.126 05/23 11:09

→ alvinlin 情了。最近有改善很多了啦 180.177.212.126 05/23 11:09

推 mmonkeyboyy AI 就跟某些(國)人一樣舔狗啊~ 73.70.62.211 05/23 11:21

噓 alvinlin 記者不要老是把「舊」聞當「新」聞 180.177.212.126 05/23 11:30

→ alvinlin 寫好嗎 180.177.212.126 05/23 11:30

→ alvinlin https://arxiv.org/abs/2307.03172 180.177.212.126 05/23 11:30

→ la8day 人會說：乾我屁事這鍋為什麼要我 61.230.28.15 05/23 11:58

→ la8day 揹你去找其他人 61.230.28.15 05/23 11:58

推 motan 人類需要的是方便的工具，而不是真 101.12.176.125 05/23 12:19

→ motan 的新物種 101.12.176.125 05/23 12:19

推 zaiter 蠻低能的文章文組寫的不意外 49.215.156.48 05/23 13:22

→ zaiter 感覺這記者還有將這個比AI還智障 49.215.156.48 05/23 13:23

→ Arashi0731 真人也是吧，講一講就不然你要投國 111.83.107.120 05/23 13:37

→ Arashi0731 民黨？ 111.83.107.120 05/23 13:37

→ piyobearman 人和人談到後面也是啦 101.12.146.2 05/23 13:44

→ kaltu Bert 時代就在講的東西撐過GPT用了 100.8.245.106 05/23 13:48

→ kaltu 半個decade終於出現在文組的文章裡 100.8.245.106 05/23 13:48

→ kaltu ，所以說工程師面對跟技術脫節或根 100.8.245.106 05/23 13:48

→ kaltu 本非技術的主管永遠要記得他們的知 100.8.245.106 05/23 13:48

→ kaltu 識永遠落後時代，但他們又有實權 100.8.245.106 05/23 13:48

推 Hack 這研究不是這個月才release的嗎連 42.79.103.235 05/23 13:59

→ Hack 文章都不會點進去看怎麼還好意思 42.79.103.235 05/23 14:00

→ Hack 嗆Zzz 42.79.103.235 05/23 14:00

推 Hack 留言的那篇連文章標題都不對… 42.79.103.235 05/23 14:03

→ tokeep 不是AI沒用，是你的AI沒用 118.231.192.235 05/23 14:15

推 kakar0to 靠杯講半天就是說AI沒辦法好好 1.34.223.241 05/23 14:41

→ kakar0to 思考在回答之前黃仁勳就有說這能 1.34.223.241 05/23 14:41

→ kakar0to 解決了 1.34.223.241 05/23 14:41

→ Killercat 其他不敢說不過按照向量資料庫原理 57.140.96.34 05/23 14:43

→ Killercat 來講要讓他講出"我不知道"是很難的 57.140.96.34 05/23 14:44

→ Killercat 因為無論如何該embedding附近都可以 57.140.96.34 05/23 14:44

→ Killercat 找到解 57.140.96.34 05/23 14:44

→ acgotaku 其實訓練資料越多回答的越正確 1.169.171.23 05/23 15:22

→ acgotaku 只是這個正確答案無法迎合人類 1.169.171.23 05/23 15:22

→ acgotaku 的正確答案 1.169.171.23 05/23 15:23

→ acgotaku 就像我們都很難跟諾貝爾獎得主溝通 1.169.171.23 05/23 15:25

→ acgotaku 但是普通人與普通人溝同就能對頻 1.169.171.23 05/23 15:25

推 fyb 到時客服人員都不在是真人 Ai主動 43.210.0.7 05/23 15:45

→ fyb 思考解決所有問題 43.210.0.7 05/23 15:45

推 abccbaandy 真實阿，一兩句解決不了的再問也是 1.34.13.108 05/23 16:03

→ abccbaandy 浪費時間 1.34.13.108 05/23 16:03

→ D600dust 不就跟青鳥一樣不會認錯 1.160.220.193 05/23 16:53

→ yesyesyesyes ai 回答的是你要的，不是正確解答 101.9.100.212 05/23 17:00

推 j401f2 真人有好到哪裡去嗎…一堆有偏見的 42.70.175.12 05/23 17:45

→ j401f2 根本無法理性溝通 42.70.175.12 05/23 17:45

噓 alvinlin 感覺有人英文看不懂。看中文吧。1年 180.177.212.126 05/23 18:16

→ alvinlin 了 180.177.212.126 05/23 18:16

→ alvinlin https://zhuanlan.zhihu.com/p/6786 180.177.212.126 05/23 18:16

→ alvinlin 14880 180.177.212.126 05/23 18:16

推 Hack 要不要去看看眼睛標題一樣嗎？這篇 42.79.103.235 05/23 18:43

→ Hack 文章的原文是什麼時候發表的要不要 42.79.103.235 05/23 18:43

→ Hack 看看 42.79.103.235 05/23 18:43

推 Hack 標題抓到「Lost」就開噴Zzz 兩篇探 42.79.103.235 05/23 18:52

→ Hack 討的是同一件事情嗎？這年頭讀書不 42.79.103.235 05/23 18:52

→ Hack 犯法多念一點吧 42.79.103.235 05/23 18:52

→ toaste791214 其實人腦的思維、邏輯判斷還是贏過 42.79.100.127 05/23 20:02

→ toaste791214 電腦的，不然上帝為什麼要創造人？ 42.79.100.127 05/23 20:02

→ toaste791214 而不是創造電腦？另外光看現在的研 42.79.100.127 05/23 20:02

→ toaste791214 發人員、決策者還是人類就知道了。A 42.79.100.127 05/23 20:02

→ toaste791214 I說穿就是很方便的自動化軟體而已。 42.79.100.127 05/23 20:02

→ wasitora 上帝XDDDDD 36.231.14.177 05/23 20:08

推 wrt 操這AI是傻鳥嗎？死不認錯 124.218.220.239 05/23 21:40

→ alvinlin 根據兩篇論文——2024年發表的《Los 180.177.212.126 05/24 01:42

→ alvinlin t in the Middle: How Language Mod 180.177.212.126 05/24 01:42

→ alvinlin els Use Long Contexts》（簡稱Lost 180.177.212.126 05/24 01:42

→ alvinlin in the Middle）和2025年發表的《L 180.177.212.126 05/24 01:42

→ alvinlin LMs Get Lost in Multi-Turn Conver 180.177.212.126 05/24 01:42

→ alvinlin sation》（簡稱Lost in Conversatio 180.177.212.126 05/24 01:42

→ alvinlin n）——這兩篇論文都討論了大型語言 180.177.212.126 05/24 01:42

→ alvinlin 模型（LLMs）在處理長上下文或多輪 180.177.212.126 05/24 01:42

→ alvinlin 對話時的能力限制，以下幫助你理解 180.177.212.126 05/24 01:42

→ alvinlin 兩者的關係與差異。 180.177.212.126 05/24 01:42

→ alvinlin 1. 兩篇論文的主題與核心問題 180.177.212.126 05/24 01:42

→ alvinlin Lost in the Middle (2024) 180.177.212.126 05/24 01:42

→ alvinlin 主題：探討LLMs在處理「長上下文」 180.177.212.126 05/24 01:42

→ alvinlin 時，對於關鍵資訊在不同位置（開頭 180.177.212.126 05/24 01:42

→ alvinlin 、中間、結尾）的利用能力。 180.177.212.126 05/24 01:42

→ alvinlin 核心問題：當關鍵資訊位於長上下文 180.177.212.126 05/24 01:42

→ alvinlin 的中間時，模型的表現顯著下降，呈 180.177.212.126 05/24 01:42

→ alvinlin 現「U型曲線」（首尾好，中間差）， 180.177.212.126 05/24 01:42

→ alvinlin 即「中間迷失」現象。 180.177.212.126 05/24 01:42

→ alvinlin 重點場景：多文件問答、key-value檢 180.177.212.126 05/24 01:42

→ alvinlin 索等需要在長文本中定位資訊的任務 180.177.212.126 05/24 01:42

→ alvinlin 。 180.177.212.126 05/24 01:42

→ alvinlin Lost in Conversation (2025) 180.177.212.126 05/24 01:42

→ alvinlin 主題：探討LLMs在「多輪對話」中， 180.177.212.126 05/24 01:42

→ alvinlin 尤其是用戶需求逐步揭露（underspec 180.177.212.126 05/24 01:42

→ alvinlin ified, multi-turn）時的表現。 180.177.212.126 05/24 01:42

→ alvinlin 核心問題：LLMs在多輪、需求逐步揭 180.177.212.126 05/24 01:42

→ alvinlin 露的對話中，表現大幅下降，且 unre 180.177.212.126 05/24 01:42

→ alvinlin liability（不穩定性）大幅增加，容 180.177.212.126 05/24 01:42

→ alvinlin 易「迷失在對話中」。 180.177.212.126 05/24 01:42

→ alvinlin 重點場景：模擬用戶逐步補充需求的 180.177.212.126 05/24 01:42

→ alvinlin 多輪對話，涵蓋程式設計、數學、摘 180.177.212.126 05/24 01:42

→ alvinlin 要等多種生成任務。 180.177.212.126 05/24 01:42

→ alvinlin 2. 兩者的關係與差異說明： 180.177.212.126 05/24 01:42

→ alvinlin 兩者都關注LLMs在「長期記憶」或「 180.177.212.126 05/24 01:42

→ alvinlin 多步推理」場景下的能力瓶頸，在202 180.177.212.126 05/24 01:42

→ alvinlin 4年論文聚焦於靜態長文本的資訊定位 180.177.212.126 05/24 01:42

→ alvinlin 與利用。在2025年論文聚焦於動態多 180.177.212.126 05/24 01:42

→ alvinlin 輪對話中資訊逐步揭露與模型可靠性 180.177.212.126 05/24 01:42

→ alvinlin 。 180.177.212.126 05/24 01:42

→ alvinlin 兩者的「迷失」現象有相似之處（即 180.177.212.126 05/24 01:42

→ alvinlin 模型無法有效整合所有上下文資訊） 180.177.212.126 05/24 01:42

→ alvinlin ，而具體場景、評估方法和解釋略有 180.177.212.126 05/24 01:42

→ alvinlin 不同。 180.177.212.126 05/24 01:43

→ alvinlin 3. 2025年論文是否提出更多論點或解 180.177.212.126 05/24 01:43

→ alvinlin 決方案？ 180.177.212.126 05/24 01:43

→ alvinlin 2025年論文的進一步貢獻： 180.177.212.126 05/24 01:43

→ alvinlin 更貼近實際應用場景：強調多輪、需 180.177.212.126 05/24 01:43

→ alvinlin 求逐步揭露的對話，這是現實用戶與A 180.177.212.126 05/24 01:43

→ alvinlin I互動的常態。 180.177.212.126 05/24 01:43

→ alvinlin 提出「可靠性 unreliability」新指 180.177.212.126 05/24 01:43

→ alvinlin 標：不僅看平均表現，還關注模型在 180.177.212.126 05/24 01:43

→ alvinlin 多次對話中的穩定性（同一需求多次 180.177.212.126 05/24 01:43

→ alvinlin 對話結果差異大）。 180.177.212.126 05/24 01:43

→ alvinlin 大規模實驗：涵蓋15個主流LLM、6大 180.177.212.126 05/24 01:43

→ alvinlin 類生成任務，並提出「sharding」方 180.177.212.126 05/24 01:43

→ alvinlin 法將單輪任務轉為多輪對話。 180.177.212.126 05/24 01:43

→ alvinlin 分析失敗原因：如模型過早下結論、 180.177.212.126 05/24 01:43

→ alvinlin 過度依賴前一輪錯誤答案、對中間回 180.177.212.126 05/24 01:43

→ alvinlin 合資訊利用不足等。 180.177.212.126 05/24 01:43

→ alvinlin 測試多種緩解策略：如在最後一輪總 180.177.212.126 05/24 01:43

→ alvinlin 結所有需求（recap）、每輪重複所有 180.177.212.126 05/24 01:43

→ alvinlin 已知需求（snowball），但發現這些 180.177.212.126 05/24 01:43

→ alvinlin 方法只能部分緩解，無法徹底解決。 180.177.212.126 05/24 01:43

→ alvinlin 總結：2025年論文雖不是簡單重複202 180.177.212.126 05/24 01:43

→ alvinlin 4年的發現，而是將「迷失」現象推廣 180.177.212.126 05/24 01:43

→ alvinlin 到更貼近真實用戶互動的多輪對話場 180.177.212.126 05/24 01:43

→ alvinlin 景，並提出了新的評估指標與分析框 180.177.212.126 05/24 01:43

→ alvinlin 架，對LLM未來改進提出了更具體的挑 180.177.212.126 05/24 01:43

→ alvinlin 戰。 180.177.212.126 05/24 01:43

→ alvinlin 4. 總結對比表 180.177.212.126 05/24 01:43

→ alvinlin 概念延伸 180.177.212.126 05/24 01:43

→ alvinlin LostInTheMiddle_2024 180.177.212.126 05/24 01:43

→ alvinlin +主題: 長上下文資訊利用 180.177.212.126 05/24 01:43

→ alvinlin +場景: 多文件QA, key-value檢索 180.177.212.126 05/24 01:43

→ alvinlin +貢獻: 提出新評估協議 180.177.212.126 05/24 01:43

→ alvinlin +現象: U型效應(首尾好,中間差) 180.177.212.126 05/24 01:43

→ alvinlin LostInConversation_2025 180.177.212.126 05/24 01:43

→ alvinlin +主題: 多輪對話下的可靠性 180.177.212.126 05/24 01:43

→ alvinlin +現象: 多輪下表現大幅下降, 不穩定 180.177.212.126 05/24 01:43

→ alvinlin 性增加 180.177.212.126 05/24 01:43

→ alvinlin +場景: 需求逐步揭露的多輪生成 180.177.212.126 05/24 01:43

→ alvinlin +貢獻: 新指標(可靠性) : , 大規模 180.177.212.126 05/24 01:43

→ alvinlin 多模型多任務實驗, 失敗原因分析, 180.177.212.126 05/24 01:43

→ alvinlin 緩解策略測試 180.177.212.126 05/24 01:43

→ alvinlin 5. 結論 180.177.212.126 05/24 02:02

→ alvinlin 這兩篇論文不是講同一件事，但2025 180.177.212.126 05/24 02:02

→ alvinlin 年論文在2024年「長上下文迷失」的 180.177.212.126 05/24 02:02

→ alvinlin 基礎上，將問題推廣到「多輪對話」 180.177.212.126 05/24 02:02

→ alvinlin 這一更貼近實際應用的場景，並提出 180.177.212.126 05/24 02:02

→ alvinlin 了更多新的觀察、指標和挑戰。 180.177.212.126 05/24 02:02

→ alvinlin 2025年論文提出了更多論點與分析， 180.177.212.126 05/24 02:02

→ alvinlin 但目前尚未有徹底的解決方案，僅測 180.177.212.126 05/24 02:02

→ alvinlin 試了一些緩解方法，效果有限。 180.177.212.126 05/24 02:02

→ alvinlin 如果你關心LLM在真實對話應用中的可 180.177.212.126 05/24 02:02

→ alvinlin 靠性，2025年論文的貢獻更大、更具 180.177.212.126 05/24 02:02

→ alvinlin 啟發性。 180.177.212.126 05/24 02:02

→ alvinlin 我指的是「新」聞。不是翻譯。也不 180.177.212.126 05/24 02:03

→ alvinlin 是早知道的東西。 180.177.212.126 05/24 02:04

推 pacino 這篇真的讚。 36.230.30.221 05/24 09:02

推 alex01 很像小朋友啊 223.136.175.36 05/24 14:57

→ pc1234 外行人看熱鬧內行人看門道 111.82.189.178 05/25 15:15

→ vampirelin 就懂點皮毛，然後一本正經的胡說八 101.10.236.56 05/26 03:06

→ vampirelin 道 101.10.236.56 05/26 03:06