Sapient 開源 10 億參數模型 HRM-Text;在 46 小時內達成 1,472 美元訓練成本

根據 Beating,Sapient Intelligence 釋出了 HRM-Text 的開源版本:基於其分層推理模型(HRM)架構的 10 億參數文字生成模型。只使用 400 億個結構化 tokens,該模型僅需在兩台配備 8-GPU H100 的伺服器上進行 46 小時的訓練;算力成本約為 1B 版本 1,472 美元、0.6B 版本 800 美元;相較於標準模型,這代表在預訓練算力上實現了 130–600 倍的降低。

效率提升來自雙時間尺度的循環設計,包含分別負責快速與慢速運作的 Transformer 模組,會在相同輸入上交替運作,並透過狀態相加交換資訊。完整的工程框架(包含資料抽取與 PyTorch 分散式訓練)也已開源釋出。請注意,釋出的權重僅用於未對齊的預訓練;模型支援前綴補全任務,但無法作為對話式助理運作。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆