谷歌新研究：大模型破除“幻覺”困境，元認知成開啟可靠AI新鑰匙

發布時間：2026-06-03 14:40 來源：快訊作者：朱天宇

谷歌研究院與特拉維夫大學聯合完成的一項研究，為人工智能領域對抗“幻覺”問題提供了全新思路。這項被ICML 2026 Position Track接收的論文指出，當前行業試圖通過擴充知識儲備或強制拒答來消除AI幻覺的路徑，可能從根本方向上存在偏差。研究者提出，與其追求讓AI掌握所有知識，不如重點培養其感知并表達自身不確定性的能力。

所謂AI幻覺，指模型輸出事實性錯誤內容時，仍以不容置疑的方式呈現給用戶。這種特性在醫療、法律等高風險場景中尤為危險。傳統應對策略分為兩類：一類是通過擴大訓練數據提升模型知識儲備，另一類是設置拒答機制規避錯誤輸出。但兩種方案都存在明顯缺陷——前者無法窮盡所有知識，后者則會導致AI實用性大幅下降。研究將這種實用性損失定義為"實用性稅"，指出當AI錯誤率為25%時，若要將錯誤率壓至5%，現有模型需要拒絕回答超過52%的正確問題。

研究團隊通過區分"校準"與"判別力"兩個概念，揭示了問題的本質。校準衡量的是AI整體自信水平與正確率的匹配度，而判別力則反映模型區分具體答案對錯的能力。實驗數據顯示，主流大模型在知識問答任務中的判別力指標AUROC普遍在0.70-0.85區間，這意味著即使將判別力提升至理論極限，仍需放棄近30%的正確回答。對SimpleQA Verified基準測試的分析進一步證實，現有模型要么答錯率高，要么拒答率高，尚未出現既能多答又少錯的理想模型。

該研究的核心突破在于重新定義了幻覺的本質。研究者提出，真正需要解決的問題不是"AI說錯話"，而是"AI在不確定時偽裝確定"。基于這種認知，研究提出了"忠實不確定性"概念——要求AI的語言表達與其內部認知狀態保持一致。這種能力通過對比模型對同一問題的重復回答來衡量：若多次回答一致則表明內部確定，反之則不確定。實驗表明，這種對應關系比追求絕對正確更易實現，因為它不依賴外部知識驗證，僅需模型保持內部狀態一致性。

在AI代理（Agent）應用場景中，這種元認知能力顯得尤為重要。當AI具備調用搜索引擎等外部工具的能力時，它需要持續判斷：是否需要搜索？搜索結果是否可信？如何處理內部知識與外部信息的沖突？缺乏不確定性感知的AI代理，就像沒有儀表盤的飛行員，無法做出合理決策。現有搜索增強型AI普遍存在工具濫用問題，正是由于模型無法準確評估自身知識邊界。

實現這一目標仍面臨多重挑戰。首先是"自舉悖論"——用靜態數據訓練動態認知能力，可能導致模型學會"假裝不確定"。其次是RLHF等對齊訓練會削弱模型原有的不確定性信號，因為人類偏好確定性的回答。更深層的難題在于如何區分"真正的元認知"與"對元認知的表演"，這需要開發新的評估體系。研究建議，評估反幻覺方法時應繪制完整的"實用性-錯誤率權衡曲線"，并檢測其在推理、編程等任務中的附帶影響。

更多>同類內容