CEO da MiniMax: a inteligência do Edge Model corresponde à GPT-4, a tecnologia de agentes precisa de tempo

MINIMAX7,42%

O CEO da MiniMax Intelligence, Li Dahai, afirmou na Conferência 2026 Beijing Zhiyuan que a tecnologia de agentes exige uma abordagem ponderada, apesar do avanço rápido. Falando ao Pengpai News e a outros meios, Li explicou que as expectativas do público para agentes sem erros ultrapassam o que a actual curva de desenvolvimento técnico consegue entregar, já que a tecnologia ainda precisa de tempo para amadurecer. Identificou 2025 como o primeiro ano dos agentes, antecipando um crescimento explosivo que terá um impacto profundo na sociedade humana, embora tenha sublinhado a necessidade de uma avaliação serena das capacidades técnicas actuais no espaço dos agentes de IA.

Li Dahai Descreve Limitações da Tecnologia de Agentes e Evolução Rápida

Li Dahai reconheceu que a integração de modelos de grande escala e a tecnologia de agentes evoluem rapidamente, com alguns cenários já a chegar a aplicações práticas. Ao falar sobre as limitações dos agentes, Li afirmou de forma directa: "Problemas em todo o lado." Desenvolveu que "a evolução dos modelos e da tecnologia de Agentes é muito rápida", explicando que "talvez hoje algum trabalho tenha uma taxa de erro de 10% e no próximo mês a taxa de erro desça para 1% — a evolução rápida tornou-se uma tendência central."

O CEO da MiniMax Refuta a Ideia Errada da Distilação de Modelos Pequenos

Li Dahai contestou directamente a crença generalizada na indústria de que "fazer bons modelos pequenos tem de vir da distilação de modelos fundacionais de escala ultragrande", chamando-lhe um "equívoco cognitivo". Explicou: "Por detrás da distilação existe um pressuposto muito específico: o próprio objecto da distilação tem de ser um bom modelo. A distilação é essencialmente isto: para empresas que não têm capacidade para desenvolver modelos fundacionais por si mesmas, mas querem fazer aterragem de aplicações, adoptam modelos fundacionais existentes em pequena escala e obtêm capacidades específicas para cenários através de afinação. Neste processo, podem efectivamente usar outros modelos grandes para sintetizar dados e fazer com que os modelos pequenos adquiram as capacidades correspondentes." Li afirmou que este é o paradigma para todo o treino de modelos de grande escala, não limitado apenas a modelos pequenos.

A MiniMax Passa as Cargas de Treino para Chips Nacionais

Li Dahai revelou: "Desde este ano, à medida que a indústria, no seu conjunto, passou a fazer a inferência em chips nacionais, nós também estamos a transferir gradualmente o treino para chips nacionais e clusters nacionais." Identificou dois caminhos em paralelo para melhorar o ecossistema de computação nacional: o primeiro é o refinamento de baixo para cima, em que as empresas de modelos de grande escala vão melhorando gradualmente o ecossistema através das suas próprias práticas de treino, "como molhar uma placa de pedra, por partes, o que leva tempo." O segundo caminho é o planeamento de cima para baixo, exemplificado pela cooperação profunda da MiniMax com o Zhiyuan Research Institute no ecossistema de software FlagOS, onde empresas de modelos de grande escala e empresas de chips estabelecem uma cooperação profunda e avançam com planeamento. Li Yuxuan, responsável pela AIInfra da MiniMax Intelligence, referiu que a inferência, na verdade, exige maior precisão do que o treino, e que a tecnologia de escalamento de modelos proposta pela MiniMax se tornou uma grande descoberta: conseguir o efeito de prever modelos grandes com modelos muito pequenos, fornecendo avaliação aprofundada em chips nacionais, alinhando detalhes experimentais com fabricantes no estrangeiro e confirmando que a precisão do treino é utilizável. A MiniMax revelou que conseguiu um treino com quantização aware de largura de bits extremamente baixa na plataforma da Huawei, atingindo 95% da eficiência do treino normal. Li Dahai explicou que a perda de 5% vem da sobrecarga do quantizador em si, e através de uma cooperação profunda com a Huawei, esta sobrecarga foi optimizada para o mínimo.

MiniCPM-5 1B Atinge Desempenho Quase GPT-4o no Benchmark ArtificialAnalysis

A MiniMax Intelligence anunciou que a versão de 1B da quinta geração MiniCPM Small Cannon obteve uma pontuação de 17,9 na avaliação autorizada ArtificialAnalysis (AA). Investigadores da comunidade open source compararam e verificaram que o GPT-4o (parâmetros 200B), lançado em Maio de 2024, obteve 18,3-18,6 na mesma tipologia de avaliação, com uma diferença de apenas 0,4-0,7 pontos entre os dois. Li Dahai afirmou: "Em 2024 previmos que, até ao final de 2026, o nível de inteligência dos modelos de edge pudesse chegar ao nível do GPT-4. Pelos dados actuais, este objectivo foi alcançado com antecedência."

Durante a anterior "MiniMax Open Source Week", a MiniMax Intelligence lançou dois modelos grandes de edge: MiniCPM5-1B e BitCPM-CANN. O MiniCPM5-1B voltou a redefinir o limite superior da densidade de inteligência dos modelos: com apenas escala de 1B parâmetros, ultrapassou todos os modelos abaixo de 2B parâmetros no ranking AA-Index, internacionalmente conhecido; em comparação com o Qwen3.5-2B lançado há 3 meses, o MiniCPM5-1B não só tem melhor desempenho como também reduziu os parâmetros para metade.

Framework Escrito por AI ForgeTrain Treina 10% Mais Rápido do que NVIDIA Megatron

O modelo MiniCPM5-1B foi pré-treinado pelo framework de treino de IA desenvolvido de forma independente pela MiniMax Intelligence, ForgeTrain, que é o primeiro framework de pré-treino de modelos grandes, pronto para produção, totalmente escrito por IA, sem participação de programadores humanos. A velocidade de treino é 10% superior à do NVIDIA Megatron.

FAQ

O que disse Li Dahai sobre as limitações da tecnologia de agentes na Conferência 2026 Beijing Zhiyuan?

Li Dahai afirmou que as expectativas do público para agentes sem erros ultrapassam o que a actual curva de desenvolvimento técnico consegue entregar, e que a tecnologia ainda precisa de tempo para amadurecer. Descreveu as limitações actuais dos agentes como "problemas em todo o lado", mas salientou que as taxas de erro estão a cair rapidamente — de 10% para 1% no espaço de um mês em alguns casos.

Como é que o desempenho do MiniCPM-5 1B se compara ao GPT-4o no benchmark ArtificialAnalysis?

O MiniCPM-5 1B (com 1B de parâmetros) obteve 17,9 na avaliação ArtificialAnalysis, enquanto o GPT-4o (com 200B de parâmetros, lançado em Maio de 2024) obteve 18,3-18,6 na mesma avaliação, resultando numa diferença de apenas 0,4-0,7 pontos entre os dois modelos.

O que é o ForgeTrain e como se compara ao NVIDIA Megatron?

O ForgeTrain é o framework de treino de IA desenvolvido de forma independente pela MiniMax Intelligence, que é o primeiro framework de pré-treino de modelos grandes, pronto para produção, totalmente escrito por IA sem participação de programadores humanos. Treina 10% mais rápido do que o NVIDIA Megatron.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário