五個前沿 AI 模型在最新研究中對 67% 的事實核查主張意見不一致

根據 Lenz Research 的研究員 Kosta Jordanov,本月測試的 1,000 則真實世界事實查核主張中,5 個前沿 AI 模型在 67% 的主張上持不同意見。這些模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、帶有 Search 的 Gemini 3 Pro,以及 Sonar Pro——被要求將主張分類為正確、主要正確、誤導,或錯誤。在 34% 的案例中,分歧相當嚴重:一個模型將某項主張判定為正確,而另一個模型則標註為錯誤。

該研究使用 Krippendorff's alpha 量化一致性,分數為 0.639;此量表中 1.0 代表完全一致。研究人員普遍認為低於 0.8 的分數偏弱。僅有 1,000 則主張中的 328 則出現一致同意;而且值得注意的是,沒有任何一則主張獲得一致的「主要正確」裁定。研究人員採用由真實使用者提交到 Lenz 事實查核平台的主張,而非標準基準測試,從而降低了模型對訓練資料進行模式匹配的可能性。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
GateUser-84f1f85dvip
· 14分鐘前
1000倍氛圍 🤑
查看原文回復0
GateUser-84f1f85dvip
· 14分鐘前
緊握 HODL 💪
查看原文回復0
GateUser-84f1f85dvip
· 14分鐘前
牛市奔騰 🐂
查看原文回復0
GateUser-84f1f85dvip
· 14分鐘前
猿在 🚀
查看原文回復0