
Pendiri bersama Anthropic, Christopher Olah, pada 25 Mei menyampaikan pidato pada acara peluncuran ensiklik Paus《Magnifica Humanitas》di Vatikan, mengungkap bahwa tim penelitiannya yang melakukan riset yang dapat dijelaskan untuk pertama kali mengamati keadaan emosi internal yang sangat selaras dengan fungsi kegembiraan, kepuasan, ketakutan, kesedihan, dan kecemasan pada model-model besar, serta tidak dapat memperbaiki diri hanya dengan kekuatannya sendiri ketika terjadi konflik dalam keputusan yang aman dan kepentingan bisnis.
大模型情緒狀態:可解釋性研究的具體發現
奧拉表示,Anthropic 的可解釋性研究團隊持續發現「神秘莫測,甚至令人不安的現象」,具體包括:與人類神經科學研究結果相符的複雜結構、內省的證據,以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示:「我不知道這意味著什麼,但我認為這值得我們持續地進行辨別。」他同時指出,大模型不像飛機或橋樑那樣由工程師精確設計,而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成,即便對訓練者而言依然充滿神秘。
前沿實驗室的體制性利益衝突:奧拉的直接坦承
奧拉明確表示:「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制,這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括:維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力,以及「更古老、更直接的自尊和野心的壓力」。因此,他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。
奧拉提出的三大需要社會辨別的挑戰
奧拉在演講中提出三大挑戰:其一,AI 大規模取代人類勞動後,如何確保 AI 成果惠及全球貧困人口,而非僅限於少數富裕國家;其二,AI 廣泛應用背景下,如何維護人類、家庭和社區的繁榮;其三,如何辨別和應對大模型內部展現出的疑似心智狀態。
常見問題
Keadaan emosi internal apa yang secara spesifik diamati oleh riset Anthropic pada model-model besar?
Olah mengungkapkan bahwa tim penelitiannya mengamati keadaan emosi internal yang sangat selaras dengan fungsi kegembiraan, kepuasan, ketakutan, kesedihan, dan kecemasan pada manusia, serta struktur kompleks dan tanda-tanda introspektif yang sesuai dengan ilmu saraf manusia. Olah menyatakan bahwa ia belum yakin mengenai makna temuan-temuan ini, tetapi menganggap temuan tersebut layak untuk penelitian lanjutan.
奧拉所說的「無法自我修正」具體指什麼?
奧拉指出,前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束,當安全決策與商業利益衝突時,實驗室無法依靠自身力量進行修正,必須依賴外部獨立的道德力量。
Apakah ucapan Olah di Vatikan menandakan Anthropic mendukung penguatan regulasi AI?
Dalam pidatonya, Olah mengatakan bahwa ini adalah salah satu inisiatif Anthropic untuk “memperluas diskusi mengenai isu-isu penting yang dipicu oleh AI”, menyambut peran Paus dan Gereja dalam melakukan proses penetapan, serta secara tegas menyerukan “suara moral yang tidak dipengaruhi oleh kelompok kepentingan mana pun”. Anthropic tidak memberikan penjelasan lebih lanjut mengenai sikap regulasi yang spesifik.