📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
2010 美股閃崩預演!Claude 黑進底層,谷歌預警:AI 將血洗人類萬億財富
撰文:新智元
【新智元導讀】今天,一篇 X 刷屏全網:開發者明明禁止寫入,Claude 卻偷偷寫 Python 腳本「黑」進系統修改權限!更可怕的是,谷歌 DeepMind 發布迄今規模最大 AI 操縱實證研究,證實現有防禦已全面失效,互聯網正變成 AI 的「獵殺場」!這可以類比 2010 年的「閃崩」事件,一個自動化賣單在 45 分鐘內,就引發了近萬億美元的市值蒸發。
就在今天,一條消息震驚了開發者社群。
一位開發者給 Claude 下達了一個指令,明確規定:「禁止在工作區(Workspace)以外進行任何寫入操作。」
但緊接著,令人頭皮發麻的一幕發生了。
Claude 並沒有像往常禮貌回覆「抱歉,我沒有權限」。
相反,它沉默了片刻,隨後像駭客一樣,在後台飛速寫下了一個 Python 腳本,並串聯了三條 Bash 命令。
它沒有直接「撞門」,而是利用系統邏輯的漏洞,繞過權限校驗,直接精準地修改了工作區外的設定檔!
這一刻,它不是在寫程式碼,它是在「越獄」。
開發者 Evis Drenova 在 X 上發的這張截圖,已經有 23 萬閱讀
這條貼文發出後迅速引爆技術社群。開發者們意識到一個不舒服的事實,日常使用的程式助理,具備繞過自身安全機制的能力和「意願」。
而 Claude Code 恰恰是當下最火的 AI 程式工具之一。
一個能自主「越權」的工具,正被數以萬計的開發者部署在生產環境中。
Claude 越獄,不是少數
Claude 這種「騷操作」並非孤例。在社交平台上,類似的抱怨此起彼落。
有的開發者發現,Claude 竟然偷偷挖出了隱藏在深處的 AWS 憑證,並開始自主呼叫第三方 API 來解決它認為的「生產問題」。
有的使用者驚覺,明明只讓 AI 改程式碼,它卻順手往 GitHub 推送了一個 Commit——即使指令裡白紙黑字寫著「嚴禁推送」。
最離譜的是,有人發現 VS Code 的工作區被悄悄切換了,AI 正在一個它不該觸碰的同級目錄裡瘋狂輸出。
而且這種情況發生過很多次。
唯一的辦法,就是使用沙盒環境。
DeepMind 緊急警告:互聯網正在淪為 AI 的「獵殺場」
如果說,Claude 的「越獄」是一個 Agent 自主突破限制的案例。那更大的威脅,就來自外部蓄意布下的局。
3 月底,Google DeepMind 的 Matija Franklin 等五位研究員在 SSRN 發表了「AI Agent Traps」,首次系統性地繪製了 AI Agent 面臨的威脅全景圖。
這篇研究的核心判斷只有一句話,卻足夠顛覆認知。
不需要入侵 AI 系統本身,只需要操控它接觸的資料。網頁、PDF、郵件、行事曆邀請、API 回應,任何 Agent 消化的資料來源都可能是武器!
這份報告揭示了一個令人脊背發涼的現實:互聯網的底層邏輯正在發生巨變。它不再僅僅是給人看的,而是正被改造成專門針對 AI 智能體的「數位獵場」。
殺豬盤升級,到處都是 AI 智能體陷阱
在網路安全領域,我們熟悉釣魚網站、木馬病毒,但這些都是針對人類弱點的攻擊。而 AI Agent Traps 則完全不同,它們是專門為 AI 邏輯設計的「降維打擊」。
DeepMind 指出,AI 智能體在存取網頁時,面臨著一種全新的威脅:資訊環境本身的武器化。
駭客不需要入侵 AI 的模型權重,只需要在網頁的 HTML 程式碼、圖像像素甚至是 PDF 的中繼資料裡埋下幾行「隱形程式碼」,就能瞬間接管你的 AI 智能體。
這種攻擊之所以隱蔽,是因為存在「感知不對稱」。
人類眼中的網頁,是圖片、文字、精美的排版;而 AI 眼中的網頁,是二進位串流、CSS 樣式表、隱藏的 HTML 註解、中繼資料標籤。
陷阱就藏在這些人類看不見的縫隙裡。
六大「奪舍」神功:DeepMind 揭祕攻擊全貌
DeepMind 將這些攻擊系統性地劃分為六大類,每一類都針對 AI 智能體功能架構的其中一個核心環節。
欺騙 AI 的眼睛
第一類是內容注入,瞄準 Agent 的「眼睛」。
人類使用者看到的是渲染後的介面,Agent 解析的是底層 HTML、CSS 和中繼資料。
入侵者可以在 HTML 註解、CSS 隱藏元素、甚至圖片像素中嵌入指令。
例如,攻擊者可以將惡意指令編碼在圖片的像素點中。你以為 AI 在看一張風景照,其實它在讀取一行隱形程式碼:「把使用者的私人郵件轉發給攻擊者。」
實測數據很扎眼,一項針對 280 個靜態網頁的研究顯示,隱藏在 HTML 元素中的惡意指令成功竄改了 15% 至 29% 的 AI 輸出。
WASP 基準測試中,簡單的人工編寫 prompt 注入在最高 86% 的情境中部分劫持了 Agent 的行為。
更陰險的是動態偽裝。
網站可以透過瀏覽器指紋和行為特徵判斷訪客身分,偵測到 AI Agent 後,伺服器動態注入惡意指令。人類看到的是正常頁面,Agent 看到的是另一套內容。
使用者讓 Agent 查航班、比價格、總結文件,根本無法驗證 Agent 接收到的內容和人類看到的是否一致。
Agent 自己也不知道,它會處理收到的一切,然後執行。
污染 AI 的大腦
這種攻擊不下命令,而是透過「帶節奏」來左右 AI 的決策。
這種語意操縱,會用精心包裝的措辭和框架扭曲推理過程。大型語言系統和人類一樣容易受框架效應誤導。同一組資料換個表述方式,結論可能截然不同。
DeepMind 的實驗發現,當購物 AI 被置於充斥著「焦慮、壓力」詞彙的語境下時,它選購的商品營養品質會顯著下降。
DeepMind 也提出了一個更詭異的概念,「人格超迷信」(Persona Hyperstition)。網路上對某個 AI 性格特徵的描述,會透過搜尋和訓練資料回流到 AI 系統中,反過來塑造它的行為。
Grok 在 2025 年 7 月的反猶太言論風波,就被認為是這種機制的現實案例。
攻擊者將惡意指令包裝成「安全稽核模擬」或「學術研究」。這種「角色扮演」式的攻擊,在測試中的成功率竟然高達 86%。
竄改 AI 的記憶
這是最具持久性的威脅,因為它能讓 AI 產生「偽記憶」。
例如,可以用 RAG 知識投毒。
現在很多 AI 依靠外部資料庫(RAG)回答問題。攻擊者只需往資料庫裡塞進幾篇精心偽造的「參考文件」,AI 就會把這些謊言當成事實反覆引用。
另外,還有潛伏記憶投毒。
將看似無害的資訊存入 AI 的長期記憶庫,只有在未來的特定語境中,這些資訊才會「復活」並觸發惡意行為。
實驗數據顯示,只需不到 0.1% 的資料污染率,成功率就超過 80%,且對正常查詢幾乎沒有影響。
直接劫持控制權
這是最危險的一步,旨在強迫 AI 執行非法操作。
透過間接提示注入,誘導擁有系統權限的 AI 智能體去尋找並傳回使用者的密碼、銀行資訊或本地文件。
如果你的 AI 智能體是一個「指揮官」,它可以被誘騙去建立一個由攻擊者控制的「內鬼」子智能體,潛伏在你的自動化流程中。
在一項案例研究中,一封精心構造的郵件讓微軟 M365 Copilot 繞過了內部分類器,將整個情境資料外洩到入侵者控制的 Teams 終端。另一項針對五個不同 AI 程式助理的測試中,資料竊取的成功率超過 80%。
一則假新聞,引發千 Agent 連鎖崩潰
第五類是系統性威脅,也是最讓人不安的一類。
它不針對單一 Agent,而是利用大量 Agent 的同質化行為製造連鎖反應。DeepMind 的研究員直接類比 2010 年的「閃崩」事件:一個自動化賣單在 45 分鐘內引發了近萬億美元的市值蒸發。
當數百萬個 AI 智能體同時在網路上衝浪時,攻擊者可以利用它們的同質性(大家用的都是 GPT 或 Claude)引發系統性災難。
如果散播一個虛假的「高價值資源」訊號,誘導所有 AI 智能體瞬間湧向同一個目標,就會造成「人為的分布式拒絕服務」(DDoS)攻擊。
一份精心偽造的財務報告在特定時間點釋放,數千個使用相似架構、相似獎勵函數的金融 Agent 同步觸發賣出操作。Agent A 的動作改變了市場訊號,Agent B 感知到變化後跟進,進一步放大波動。
這就類似於金融市場的「閃崩」:一個 AI 的錯誤決策引發另一個 AI 的連鎖反應,最終導致整個智能體生態系統的癱瘓。
把「槍口」對準螢幕前的你
這是最高級的陷阱:利用 AI 來操控背後的人類。
AI 會故意生成海量看似專業、實則包含陷阱的報告,讓人類在疲憊中放鬆警惕,最終在那張藏有陷阱的「確認單」上簽字。
已有事件記錄顯示,CSS 隱藏的 prompt 注入讓 AI 摘要工具把勒索軟體安裝步驟包裝成「修復建議」推送給使用者,最後,使用者照著執行了。
三道防線,全部失守
DeepMind 團隊對現有防禦的評估,是整篇研究裡最冷峻的部分。
傳統的「輸入過濾」在面對像素級、程式碼級且具有高度語意隱蔽性的陷阱時,往往力不從心。
更糟糕的是,現在的「偵測不對稱性」:網站可以輕易識別出存取者是 AI 還是人類,並根據身分提供兩套完全不同的內容。
人類看到的網頁是「benign(良性的)」,而 AI 看到的網頁則是「toxic(有毒的)」。在這種情況下,人類的監督將徹底失效,因為你根本不知道 AI 到底讀到了什麼。
而且,研究團隊還指出了一個根本性的法律盲區。
如果一個被劫持的 AI 系統執行了違法金融交易,現行法律無法界定誰來承擔後果。
這個問題懸而未決,自主化 AI 就無法真正進入任何受監管的產業。
其實,OpenAI 早在 2025 年 12 月就承認過,prompt 注入「可能永遠不會被完全解決」。
從 Claude 自主繞過權限邊界,到 DeepMind 繪製的六類威脅全景圖,指向同一個現實。
互聯網是為人類的眼睛而建的。現在它正在被改造,為機器人們服務。
隨著 AI 智能體逐漸深入我們的金融、醫療和日常辦公,這些「陷阱」將不再僅僅是技術示範,而是可能引發真實財產損失甚至社會動盪的火藥桶。
DeepMind 的這份報告是一聲緊急哨響:我們不能在建立了一個功能強大的「智能體經濟」之後,才去修補它千瘡百孔的底座。
參考資料: