根據 Beating,Sapient Intelligence 釋出了 HRM-Text 的開源版本:基於其分層推理模型(HRM)架構的 10 億參數文字生成模型。只使用 400 億個結構化 tokens,該模型僅需在兩台配備 8-GPU H100 的伺服器上進行 46 小時的訓練;算力成本約為 1B 版本 1,472 美元、0.6B 版本 800 美元;相較於標準模型,這代表在預訓練算力上實現了 130–600 倍的降低。
效率提升來自雙時間尺度的循環設計,包含分別負責快速與慢速運作的 Transformer 模組,會在相同輸入上交替運作,並透過狀態相加交換資訊。完整的工程框架(包含資料抽取與 PyTorch 分散式訓練)也已開源釋出。請注意,釋出的權重僅用於未對齊的預訓練;模型支援前綴補全任務,但無法作為對話式助理運作。
相關新聞