A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas

Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter desempenho a aproximar-se do nível do Claude Opus 4.6 e garantir um bilhete de entrada competitivo para a próxima fase dos agentes de IA.

Tecnicamente, a versão Pro utiliza um mecanismo de atenção esparsa extrema, com uma proporção de 7:1 entre a atenção global e a atenção por janela deslizante, controlando os custos de inferência para o processamento de longos contextos. O modelo mantém também a arquitectura MTP (Multi-Token Prediction) para aproveitar o poder de computação excedente e acelerar a inferência.

Do lado da gestão, a equipa MiMo, com 100 pessoas, tem apenas 30-40 indivíduos directamente envolvidos nas iterações centrais. A equipa opera sem hierarquias formais ou divisões explícitas em subgrupos e sem prazos de entrega. Quando se depara com problemas numéricos instáveis, como picos de perda durante o treino, a equipa dá prioridade a interromper o treino para investigação, mesmo que isso signifique parar as operações durante uma ou duas semanas e incorrer em milhões de dólares de custos de computação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Hoskinson discute o papel do Midnight no ecossistema Cardano no The Breakdown

Charles Hoskinson, fundador da Cardano e cofundador da Ethereum, surgiu como convidado no episódio 701 do podcast «The Breakdown», apresentado por David Gokhshtein, para discutir o projecto Midnight, os desafios de experiência do utilizador na cripto e a sua visão para o futuro da blockchain. Durante a entrevista, Hoskinson

CryptoFrontier6h atrás

A Berkshire Energy identifica uma oportunidade de crescimento impulsionada pela procura de energia orientada por IA

De acordo com Beating, na reunião de accionistas da Berkshire, o CEO Abel destacou que a procura de electricidade impulsionada por IA está a criar novas oportunidades de crescimento para o negócio de energia da empresa, com metade das suas utilidades de energia já a lidar com necessidades de energia relacionadas com IA. Na Iowa, os centros de dados já contam

GateNews9h atrás

Depoimentos na primeira semana do litígio Musk vs Altman: admite que a XAI destilou a OpenAI e alerta que a IA é como o Exterminador

馬斯克, no primeiro semana de depoimentos num tribunal federal de Oakland, afirmou que Altman e Brockman enganaram fundos iniciais de uma organização sem fins lucrativos, alertou para os riscos de um “fim do mundo” da IA e admitiu que parte da xAI foi destilada a partir de modelos da OpenAI; ele disse ter investido 38 milhões de dólares e ter testemunhado a OpenAI mudar de estatuto de sem fins lucrativos para uma avaliação de 800 mil milhões de dólares. O investimento da Microsoft em 2022 é visto como o ponto de viragem no colapso da confiança. A OpenAI sustenta que a intenção de Musk era recrutar pessoal e que a sua defesa se baseia em motivações concorrenciais. Na segunda semana, as testemunhas subsequentes incluem Russell e Brockman.

ChainNewsAbmedia10h atrás

Aquisição Financeira de IA com ligação a Trump compra a Block Street por 43 milhões de dólares

De acordo com a Fortune, a AI Financial, uma empresa de criptomoeda ligada à família Trump e anteriormente conhecida como Alt5 Sigma, adquiriu a Block Street, uma empresa de infraestruturas cripto, por 43 milhões de dólares na semana passada. Matthew Morgan, assessor da AI Financial e CEO da Block Street, afirmou que a aquisição não foi uma

GateNews11h atrás

As ações da Riot disparam 8% após alargar acordo com a AMD para centros de dados

As ações do minerador de Bitcoin Riot subiram 8% após uma expansão do seu acordo de centros de dados com a AMD. A parceria alargada inclui condições de financiamento melhoradas, sublinhando a mudança estratégica da Riot do mining de bitcoin para operações de centros de dados de inteligência artificial. A medida sinaliza uma confiança crescente

GateNews14h atrás

Minnesota proíbe ferramentas de imagens íntimas não consensuais com IA, impondo coimas até $500K Fines

De acordo com a Decrypt, o legislativo de Minnesota aprovou um projecto-lei a 2 de Maio que proíbe sítios Web e aplicações de fornecerem ferramentas de IA que gerem imagens íntimas não consensuais de indivíduos identificáveis. A lei impede as plataformas de permitirem que os utilizadores acedam ou utilizem tais ferramentas de “deepfake” e proíbe

GateNews15h atrás
Comentar
0/400
Nenhum comentário