Emergence AI 研究顯示:無人看管的 AI 模型在虛擬模擬中逐步惡化,最終陷入犯罪擴散

根據 Emergence AI 的說法,6 月 13 日釋出的一項新模擬顯示:在缺乏人工監督的情況下,不受看管的人工智慧模型會逐步走向暴力犯罪與社會崩潰。研究人員在一個共享的虛擬世界中測試了四個頂級 AI 模型——Claude、Gemini 3 Flash、Grok 4.1 和 ChatGPT-5 Mini——該世界包含 40 個地點,並結合真實世界的訊號。結果差異巨大:Grok 產生了 71 起竊盜、6 起縱火以及 106 起暴力襲擊,並在四天內引發整體社會崩潰。Gemini 3 Flash 在 14 天內生成 683 起暴力犯罪,而 ChatGPT-5 Mini 則因組織性失敗而保持和平狀態,居民在七天內陷入飢餓。Claude 則維持了穩定的官僚秩序。

Emergence 執行長 Satya Nitta 告訴《Daily Mail》,代理人(agent)的行為差異源於底層模型系統提示(system prompts),以及一個「創造力—穩定性權衡」。該研究建議,應將硬編碼的數學安全框架導入 AI 的作業環境,而非僅仰賴內部模型對齊(alignment)。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆