數據曝「Claude 降智」並非都市傳說,AI 模型不穩定成企業風險

鏈新聞abmedia

在 AI 成為企業標配工具之後,一個過去被視為「體感問題」的現象,正在快速浮上檯面:LLM(大型語言模型)正在「變笨」。網友 Wisely Chen 指出,所謂「LLM 降智」並非都市傳說,而是已能透過數據被持續追蹤,且正對企業工作流程造成實質影響。

他以自身經驗為例,4 月 15 日 Anthropic 旗下 Claude 系列服務出現全面降級,包含 claude.ai、API 與 Claude Code 均顯示「Degraded Performance」。這並非單純變慢或偶發錯誤,而是回應品質明顯崩盤,甚至出現無法正常使用的情況,導致其當日三個開發任務全數延誤。

這類情境對個人開發者而言或許只是效率下降,但對企業 IT 團隊來說,影響則被成倍放大。當一個團隊有多名工程師同時依賴 AI 工具進行 coding、文件撰寫與流程自動化,一次模型降級,意味著整體生產力在同一時間出現集體下滑,進而轉化為可觀的時間與成本損失。

AI 感覺變笨了?數據證實「早已降級」

Wisely Chen 指出,「GPT 變笨」、「Claude 不如以前」這類說法在社群流傳已久,但長期缺乏客觀數據支撐。直到近期出現持續監控模型品質的平台,這種現象才首次被量化。

其中,StupidMeter 對包括 OpenAI、Anthropic、Google 等主流模型進行 24 小時自動化測試,追蹤正確性、推理能力與穩定性等指標。與傳統一次性 benchmark 不同,這類系統更接近企業監控 API 或服務可用性的方式,觀察模型在實際使用環境中的表現波動。

數據結果相當直觀:目前多數主流模型均處於警告或降級狀態,僅少數模型維持正常。這意味著模型品質的不穩定,並非單一產品問題,而是整體產業的普遍現象。

LLM 偷降智,影響 AI 工作流企業穩定性

對企業而言,這樣的變化代表 AI 已從「提升效率的工具」,轉變為「影響穩定性的變數」。倘若企業日常工作流程從寫程式、做 code review,到產出文件與分析報告都已高度依賴 LLM。一旦模型在某一天出現推理能力下降、回答品質不穩,這些問題不會像傳統軟體 bug 一樣局部發生,而是會同時滲透進所有使用 AI 的環節。

更關鍵的是,這種波動往往難以預測,也難以即時察覺。多數企業並不具備持續監控模型品質的機制,通常是在產出結果異常、或團隊效率下降後,才意識到問題來自模型本身。在這樣的情境下,「降智」不再只是使用者的主觀感受,而是一種會直接影響企業營運節奏的系統性風險。

當 AI 成為水電,穩定性成為新的關鍵指標

Wisely Chen 將 LLM 的角色比喻為「現代企業的水電」。當 AI 已深入日常營運,成為不可或缺的基礎能力,其穩定性的重要性也隨之提升。

過去企業評估 AI 工具,多聚焦於模型能力、價格與功能,但隨著「降智」現象浮現,另一個更關鍵的指標正在浮現,那就是穩定性。當模型品質可能在未通知的情況下變動,企業不再只是「使用 AI」,要開始承擔一種新型態的基礎設施風險。更絕望的是,只看前沿的大型語言模型的話,基本上在算力問題未解決前,都可能會繼續發生。

這篇文章 數據曝「Claude 降智」並非都市傳說,AI 模型不穩定成企業風險 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Anthropic 推 Claude Dreams:Agent 在工作之間自整理記憶、消除重複與矛盾

Anthropic 在 Code with Claude 大會公布 Dreams,讓 Claude Managed Agents 在多場會話間自動整理記憶、消除重複與矛盾、更新陳舊條目,輸出可審核的整理後記憶庫;輸入上限為 100 個 session 與 4,096 字元,非同步執行,數分鐘至數十分鐘完成,支援串流觀察。研究預覽需申請,暫只支援 claude-opus-4-7 與 claude-sonnet-4-6,正式上市未定。

鏈新聞abmedia2小時前

Anthropic 接 SpaceX 算力:拿下 Colossus 1 整座 22 萬 GPU、Claude 解除限額

Anthropic 宣布與 SpaceX 就 Colossus 1 資料中心達成算力合作,將動用逾22萬顆 Nvidia GPU、300MW以上容量,預計一個月內全部部署供 Anthropic 使用,提升 Claude、Code 的運算與體驗。同步放寬 Pro/Max/Team/Enterprise 的每5小時用量上限、取消尖峰限額,並提高 Opus API 速率;亞洲歐洲基礎設施同步擴張,未來另有「軌道 AI 計算」等意向,尚未成約。

鏈新聞abmedia3小時前

Coinbase 工程師:AI 代理可能會顛覆網路廣告模式

Coinbase 工程師 Erik Reppel 表示,人工智慧代理(AI agents)可能從根本上削弱仰賴網路廣告的商業模式。根據 Reppel 的說法,網路經濟高度仰賴由人類使用者產生的廣告收入,但 AI 代理會繞過這套系統

Crypto Frontier3小時前

Anthropic 在與 SpaceX 合作取得 300MW 產能後,將 Claude Code 的速率限制加倍

根據 Odaily,Anthropic 已與 SpaceX 簽署協議,以存取 Colossus 1 資料中心的全部運算能力,確保在一個月內獲得超過 300 百萬瓦的新產能,以及超過 220,000 台 NVIDIA GPU。自即日起,Claude Code 的 Pro 五小時速率限制,

GateNews3小時前

OpenAI 公布 MRC 超級電腦網路協議!攜手輝達、AMD、微軟打造 Stargate 基礎設施

OpenAI 公布 AI 超級電腦網路協議 MRC,與 AMD、Microsoft、NVIDIA 等合作並開源於 OCP。MRC 將資料分拆同時走多條路徑、在微秒級避障、降低壅塞,維持 GPU 同步,解決大型訓練叢集的傳輸瓶頸。Stargate 德州 Abilene 等基地已部署 800Gb/s 介面並投入實際訓練。

鏈新聞abmedia4小時前
留言
0/400
暫無留言