智譜發布 GLM-5.1 高速 API,創下全球最高 400 tokens/s 記錄

根據 Beating Monitoring,智譜(Zhipu)已針對部分企業客戶推出 GLM-5.1 高速 API,模型輸出速度最高達 400 tokens/s,為大型語言模型官方介面吞吐量創下新的全球紀錄。高速版本由智譜與 TileRT 團隊共同開發的高性能推論引擎驅動,在通過 GPU 核心(kernel)最佳化與分塊層級任務排程顯著降低延遲的同時,仍保有旗艦模型的完整能力。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆