De acordo com Beating, a Sapient Intelligence disponibilizou em open-source o HRM-Text, um modelo de geração de texto com 1 mil milhões de parâmetros baseado na sua arquitetura do modelo de raciocínio hierárquico (HRM). Usando apenas 40 mil milhões de tokens estruturados, o modelo requer apenas 46 horas de treino em dois servidores H100 com 8 GPU, com um custo de computação de aproximadamente 1.472$ para a versão de 1B e 800$ para a variante de 0,6B; isto representa uma redução de 130–600 vezes no custo de pré-treinamento em comparação com modelos padrão.
Os ganhos de eficiência advêm de um desenho recorrente com dupla escala temporal, com módulos Transformer rápidos e lentos distintos que alternam sobre a mesma entrada e trocam informação através de adição de estado. O enquadramento completo de engenharia, incluindo a extração de dados e o treino distribuído em PyTorch, também foi disponibilizado em open-source. Note que os pesos disponibilizados são apenas para pré-treinamento não alinhado; o modelo suporta tarefas de complemento por prefixo, mas não consegue funcionar como um assistente conversacional.