Pesquisa do Mind Lab sobre LoRA: aumento de parâmetros de 0,12% eleva a memória do AI em 1,31 vezes

Mind Lab AI研究

A Ji qixinjing, em 2 de junho, informou que a Mindverse, da Mindverse Technologies, divulgou recentemente, de forma contínua, resultados de pesquisa sobre ajustes eficientes de LoRA e PEFT. O principal indicador da δ-mem é: com incremento de parâmetros tão baixo quanto 0,12%, ela entrega ganhos de desempenho de 1,31 vez e 1,20 vez nos testes pesados de Memory Agent Bench e nos benchmarks de memória LoCoMo.

δ-mem: confirmação dos mecanismos técnicos e números dos testes de referência

δ-mem é uma arquitetura paralela de atenção linear híbrida projetada para as características do LoRA. No Transformer tradicional, o KV cache fica congelado na inferência e não tem capacidade de atualização; a δ-mem introduz um “Online State of Associative Memory” (estado on-line de memória associativa), mantendo uma matriz 8×8. Durante a entrada de tokens, ela é atualizada continuamente com regras incrementais (delta-rule learning). Na geração, aplica correções de baixa ordem (low-rank corrections) nas Attention Query e no Output da rede backbone.

Com base nos números oficiais do Mind Lab:

Incremento de parâmetros: tão baixo quanto 0,12%

Ganho no Memory Agent Bench: 1,31 vez

Ganho no LoCoMo: 1,20 vez

Mesmo removendo o contexto histórico explícito: ainda consegue recuperar uma grande quantidade de informações relevantes

MinT: confirmação de indicadores de desempenho para a infraestrutura-base de treino de LoRA em escala

MinT é um sistema de infraestrutura gerenciada desenvolvido para treino de LoRA e serviços on-line. O núcleo do design: o modelo base fica em permanência nos serviços de treino e inferência. Após cada treino, o que é exportado é um leve LoRA Adapter (na configuração Rank-1, pode chegar a cerca de 0,1% do modelo base). Quando uma nova estratégia entra no ar, não é necessário fazer a junção do modelo completo nem recarregar novamente.

Com base nos números oficiais do Mind Lab:

Tempo de transição de treino para disponibilidade no serviço de inferência: reduzido em até 18,3 vezes

Aumento na velocidade de carregamento em tempo real do motor (via empacotamento de tensores de MoE LoRA): de 8,5 a 8,7 vezes

Com o mecanismo de rollout em duas fases: a latência p95 do carregamento de LoRA visível ao usuário cai para 0

Redução do TTFT p95 no primeiro pedido: 2,3 vezes

O artigo “On the Scaling of PEFT”, sobre a lei de expansão do LoRA, propõe três eixos principais de escalabilidade: Scale up (corrige o problema de falha do mecanismo de reexecução de roteamento em MoE esparso de 1T), Scale down (inicialização OLoRA-tail: usa vetores singulares secundários para melhorar a estabilidade do Rank-1, sem adicionar parâmetros) e Scale out (LoRA as Memory: com votação entre vários modelos, a precisão cresce de forma logarítmica com o número de modelos k).

Macaron-A2UI: resultados de testes de referência confirmados

O Macaron-A2UI é baseado na plataforma MinT e, sobre bases de modelos de linguagem grandes de 30B, 235B e 754B, aplica em sequência treino de reforço por aprendizagem (SFT) com base em LoRA e GRPO. Além de gerar texto, o modelo consegue produzir ações executáveis estruturadas em A2UI (como caixas de seleção múltipla, sliders, cartões de confirmação etc.).

Com base nos números oficiais do Mind Lab: o Macaron-A2UI-Venti alcançou 75,6 pontos no A2UI-Bench e, usando apenas prompts de schema leves, superou a linha de base de modelos frontiers mais fortes que usam schemas longos e completos de entrada (comprimento de cerca de 27 vezes).

Perguntas frequentes

Como a δ-mem com incremento de parâmetros de 0,12% consegue obter um ganho de desempenho em memória a um custo tão baixo?

A δ-mem introduz uma matriz de estado de memória associativa on-line 8×8 (em vez do KV cache estático tradicional). Ela é atualizada continuamente com regras incrementais e, durante a geração, aplica correções de baixa ordem no Transformer backbone. Esse desenho permite que o modelo recupere informações relevantes sem depender de contexto histórico explícito, alcançando um ganho de memória de 1,31 vez com apenas um incremento de 0,12% de parâmetros.

Como o MinT gerencia LoRA na escala de milhões sem recarregar o modelo completo?

O MinT mantém o modelo base residente por muito tempo nos serviços de treino e inferência. Em cada atualização, apenas os LoRA Adapters leves são movidos e carregados. Em geral, o tamanho é inferior a 1% do modelo base. O empacotamento de tensores de MoE LoRA resolve gargalos de leitura e escrita de muitos itens pequenos. Já o mecanismo de rollout em duas fases garante que o LoRA só fique visível ao tráfego do usuário após aquecer sob o controle de admission, reduzindo a latência p95 de carregamento para 0.

Qual é a diferença fundamental entre o Macaron-A2UI e assistentes de IA tradicionais só de texto?

Além de gerar texto, o Macaron-A2UI consegue, durante interações em tempo real, produzir ações executáveis estruturadas em A2UI (como caixas de seleção múltipla, sliders, cartões de confirmação etc.), com o objetivo de reduzir a carga cognitiva de tarefas complexas e continuar aprendendo com base nos hábitos personalizados do usuário.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários