本月由 Lenz Research 的研究員 Kosta Jordanov 發表的一項研究發現,5 個前沿 AI 模型在 1,000 則真實世界的事實查核主張中,有 67% 的主張彼此意見不一致;只有 328 則主張出現一致同意。研究測試了 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search,以及 Sonar Pro,這些主張是由實際使用者提交至事實查核平台。這些模型的 Krippendorff's alpha 分數為 0.639,低於研究人員一般認為可靠的 0.8 閾值。儘管所有模型都使用相同的四標籤系統、針對相同主張進行評估(true、mostly true、misleading 或 false),它們仍出現分歧。隨著人們越來越依賴 AI 系統進行事實查核,這些發現凸顯出可靠性方面的疑慮。
該研究讓五個 AI 模型接受同樣的 1,000 則真實世界的事實查核主張,這些主張是由實際使用者提交的。模型必須從四個標籤中選擇其一:true、mostly true、misleading 或 false。研究使用的主張來自真實人士提交給 Lenz 的事實查核平台,而非從標準測試集抽取。論文指出:「其中多數主張不太可能出現在任何附有金標(gold label)的訓練語料中——沒有可作為模式比對的標準答案鍵,也沒有用來錨定的基準排行榜。」
在 1,000 則主張中的 672 則上,至少有一個模型脫離了多數意見。在 34% 的案例中,分歧非常嚴重:一個模型把某主張判為 true,而另一個模型則判為 false。研究讀到:「這些不是附有公開答案鍵的基準項目——它們是實際使用者為了向事實查核平台驗證而提交的主張。」研究也寫道:「每一個主張只有一個正確的裁定類別,因此只要面板之間出現任何分歧,就代表至少有一個模型的裁定在這個 4 桶的評分規則下,屬於標籤不一致。」
衡量一致程度的統計指標,稱為 Krippendorff's alpha,落在 0.639;此量表中 1.0 代表完全一致,0 則代表隨機機率。研究表示這顯示「非瑣碎但仍有限的同意」。研究人員指出:「這些模型的裁定是有結構的,而非純粹隨機,但又不夠一致,無法把面板視為單一、可互換的裁判。」
研究人員一般認為任何低於 0.8 的結果都屬於薄弱。
研究人員提供了示例主張,其中 AI 模型展現出最大的分歧,包括「The World Bank's active portfolio in Nigeria stands an over $16.4 billion as of 2025.」。ChatGPT 5.4 認為是「mostly true」,而 Gemini 3 Pro 稱其為「false」,其姊妹模型 Gemini 3 Pro + Search 則評為「misleading」。
在另一個示例中,研究人員給出主張:「Donald Trump said that an attack on Iran was postponed at the request of Gulf Allies.」。GPT-5.4 表示為 false,Claude Opus 4.7 稱為 mostly true,Gemini 3 Pro 稱為 false,而 Gemini 3 Pro + Search 則評為 true。
當五個模型都同意時——這只發生在 1,000 則主張中的 328 則——它們幾乎從不會同意某事是 misleading 或 mostly true。只有 4 則主張收到一致的「misleading」裁定;零則獲得一致的「mostly true」裁定。研究人員發現:「面板在明確的裁定上趨於收斂;評分量表的中間地帶就是會破裂之處。」一致性只會出現在兩端:要嘛該主張確定為 true,要嘛確定為 false。
論文在此格外謹慎地指出:「多數的前沿模型並不等同於事實真相。多數裁定有時會錯;個別持異議的模型有時反而是對的。我們使用多數作為衡量分歧的結構性參考點,而不是把它當作正確性的替代品。」
What did the Lenz Research study find about AI model agreement on fact-checking? 該研究發現,5 個前沿 AI 模型在由實際使用者提交的 1,000 則真實世界事實查核主張中,有 67% 的主張彼此意見不一致。只有 328 則出現一致同意,而模型的 Krippendorff's alpha 分數為 0.639,低於研究人員一般認為可接受的 0.8 可靠性門檻。
How did the AI models perform on the example claim about Nigeria's World Bank portfolio? ChatGPT 5.4 將這項主張「The World Bank's active portfolio in Nigeria stands an over $16.4 billion as of 2025」評為 mostly true;而 Gemini 3 Pro 稱其為 false,Gemini 3 Pro + Search 則評為 misleading,顯示在同一項事實主張上,這些模型之間出現了嚴重分歧。
Why did the study use real user-submitted claims instead of standard test sets? 研究人員使用由真實人士提交給 Lenz 的主張,因為這些主張中的多數不太可能出現在任何帶有金標(gold label)的訓練語料中;這消除了模型透過與基準答案鍵進行模式比對來得出結論的可能性,並提供了對事實查核可靠性的更具現實性的測試。
相關新聞
日本前三大銀行獲得 OpenAI 的 AI 存取權,用於資安防禦
Vitalik 確認 CROPS AI 與以太坊存取層重疊,DeepSeek V4 為核心工具
Anthropic Opus 4.8 快速模式降至 10 美元,Mythos 數週內全開
Entelligence AI 調查:82% 的 AI 工程支出損耗在漏洞重寫和延誤
Gemini 推出由 Grok 驅動的 AI 指揮中心,據報告第 1 季成果好壞參半