A equipe do grande modelo da Xiaomi afirmou que a competição mudou do era do Chat baseada em pré-treinamento para a era do Agente focada em treinamentos posteriores, com o núcleo sendo a escalabilidade do aprendizado por reforço no Agente. A alocação de cálculo mudou de 3:5:1 (pesquisa/pré-treinamento/pós-treinamento) para 3:1:1, com os dois primeiros investimentos praticamente iguais, e as equipes de ponta já atingiram 1:1. A infraestrutura também mudou de um núcleo baseado em motor de inferência para um núcleo centrado no Agente, precisando suportar agendamento de clusters heterogêneos e tolerar interrupções imprevisíveis do Agente durante o fluxo de trabalho.

MeNews

2026-04-24 06:20:36

Geração do resumo em andamento

ME News Notícias, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o chefe da equipe de grandes modelos da Xiaomi, Luo Fuli, apontou que a competição de grandes modelos mudou completamente do período dominado pelo pré-treinamento no era do Chat para a era dominada por agentes de pós-treinamento (Post-train). O ponto central atual é “como escalar o aprendizado por reforço (RL) em agentes”. Essa mudança de paradigma leva diretamente à reconstrução da alocação de poder de processamento. Luo Fuli revelou que, na era do Chat, a proporção de poder de processamento usado para pesquisa, pré-treinamento e pós-treinamento era aproximadamente 3:5:1; enquanto na era atual dos agentes, a proporção razoável de alocação de recursos é 3:1:1, ou seja, o investimento em pré-treinamento e pós-treinamento tornou-se praticamente equivalente, e as equipes de modelos de ponta atualmente investem nessas duas áreas em uma proporção de 1:1. Ao mesmo tempo, as exigências de arquitetura do sistema também mudaram drasticamente. No passado, a infraestrutura de RL era centrada principalmente em um “motor de inferência de modelo”, que lidava com cálculos de texto puro; agora, a infraestrutura deve ser centrada em “agentes”, suportando agendamento de clusters heterogêneos e tolerando a incerteza de interrupções de agentes devido a fatores imprevisíveis em fluxos de trabalho complexos. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
202.97K Popularidade
#
CryptoMarketSeesVolatility
262.5K Popularidade
#
IsraelStrikesIranBTCPlunges
32.41K Popularidade
#
rsETHAttackUpdate
88.94K Popularidade
#
US-IranTalksStall
356.1K Popularidade

Marcar

sitemap

Luofu Li: Grandes modelos entram na era pós-treinamento, com equipes de ponta alcançando uma proporção de poder de pré-treinamento e pós-treinamento de 1:1

Tendências

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Marcar