根据 Beating,Sapient Intelligence 开源了 HRM-Text,其基于分层推理模型(HRM)架构,提出了一款拥有 10 亿参数的文本生成模型。只使用 400 亿个结构化 token,该模型在两台配备 8-GPU H100 的服务器上训练仅需 46 小时,算力成本约为 1B 版本 1,472 美元、0.6B 版本 800 美元;这相较于标准模型,表示预训练算力减少了 130–600 倍。
效率提升来自一种双时间尺度的循环设计,配有分别用于快速与慢速的 Transformer 模块,它们在相同输入上交替运行,并通过状态相加交换信息。完整的工程框架(包括数据抽取与 PyTorch 分布式训练)也已开源。注意,已发布的权重仅用于未对齐的预训练;模型支持前缀补全任务,但无法作为对话式助手运行。
相关快讯