Milla Jovovich Vicki usa IA para criar um «projecto com nota máxima»? Teste de programador: é mesmo bom ou é exagero e publicidade?

O sistema de memórias de IA MemPalace, que afirma ter sido desenvolvido com a participação da actriz Milla Jovovich, prometeu testes com nota máxima e tornou-se rapidamente viral, mas foi alvo de críticas por parte da comunidade, que acusam o teste de alegada batota e de indução em erro dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros; a equipa já reconheceu as falhas e está a trabalhar na respetiva correção.

Milla Jovovich cria um “palácio de memórias” de IA e gera atenção no exterior

Ontem (4/7), houve uma grande notícia no mundo da IA: a actriz de Hollywood Milla Jovovich (conhecida por Resident Evil e O Quinto Elemento), em conjunto com o programador Ben Sigman, utilizou Claude Code para ajudar no desenvolvimento do sistema aberto de memória de IA “MemPalace”.

Por um breve momento, espalhou-se amplamente a ideia de “uma superestrela de Hollywood a fazer um projeto perfeito com nota máxima”; até hoje, o MemPalace também já ultrapassou mais de 20k estrelas no GitHub, mas muito rapidamente suscitou dúvidas entre a comunidade de desenvolvimento: há mesmo substância ou é apenas hype?

Antes de mais, vejamos qual foi a motivação por detrás do surgimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação de que, atualmente, os utilizadores dos sistemas de IA e o conteúdo das conversas com a IA, bem como os processos de decisão e as discussões sobre a arquitetura, normalmente desaparecem depois do fim das sessões de trabalho, fazendo com que meses de esforço se percam, cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar as memórias, classificando claramente a informação em asas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no critério de avaliação de memória de longo prazo LongMemEval, e que alcançou 96,6% de precisão sem chamar quaisquer APIs externas, além de conseguir ser executado totalmente no dispositivo local, sem necessidade de subscrição de serviços cloud, e com um sistema de dialeto AAAK que se afirma atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela do cinema americano Milla Jovovich cria um palácio de memórias de IA, gerando atenção no exterior

Colegas e a comunidade levantam dúvidas em conjunto; métodos de teste e falhas na promoção

No entanto, a alegada pontuação máxima do MemPalace no LongMemEval chamou rapidamente a atenção e gerou suspeitas por parte de colegas do setor.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, apontou que a afirmação de que o MemPalace obteve nota máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e concluiu que a pontuação de 100% do MemPalace resulta do facto de o número de recuperações ter sido definido para 50 vezes, mas o conjunto de dados de teste tem apenas 32 níveis máximos de etapas de diálogo; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

Quanto ao resultado de 100% do LongMemEval, foi descoberto que a equipa de desenvolvimento estava a lidar com 3 problemas específicos de três que se concentram em erros na fase de desenvolvimento, tendo escrito código de correção dedicado, o que levanta suspeitas de batota no conjunto de teste.

Fonte da imagem: Reddit A PenfieldLabs, da comunidade de colegas, aponta que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é matematicamente impossível

Utilizadores do GitHub testam na prática; há uma componente de indução em erro na avaliação de referência

O utilizador do GitHub hugooconnor comentou após testar em condições reais: quando o MemPalace afirma ter até 96,6% de precisão de recuperação, na prática não usa de todo a arquitetura do palácio de memórias promovida pelo MemPalace. hugooconnor afirma que os testes deles apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem qualquer lógica de classificação envolvendo asas, salas ou gavetas enfatizadas no projeto.

Após testar, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios de memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e depois de ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas inferiores ao desempenho do repositório de base de dados predefinido.

hugooconnor também criticou a metodologia de teste: no ambiente de testes do MemPalace, o intervalo de recuperação de cada problema é deliberadamente reduzido para cerca de 50 etapas de diálogo; procurar respostas em bases de amostras tão pequenas torna o processo demasiado simples.

Se o intervalo for alargado para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce drasticamente para 30%, mostrando que o modo de teste atual do MemPalace está a ocultar o verdadeiro desafio da pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testa na prática; há uma componente de indução em erro na avaliação de referência do MemPalace

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas e prometendo corrigir a documentação e o desenho do sistema de acordo com críticas rigorosas da comunidade, o documento principal de descrição do projeto continua a manter várias afirmações exageradas não corrigidas. Incluem-se alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e as tabelas comparativas com outros concorrentes também não apresentam totalmente quaisquer fontes.

O código-fonte do MemPalace enfrenta vários bugs

Com o número crescente de programadores a descarregar para testar, há agora muitos relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.

O utilizador cktang88 enumerou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e faz com que o sistema falhe/colapse, erros na lógica de contagem de palavras do resumo, e que os dados estatísticos da “escavação” de salas não são precisos; além disso, o servidor carrega toda a informação interpretativa na memória sempre que é feita uma chamada, causando sérios problemas de consumo de recursos.

Outros problemas apontados incluem o facto de o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e de existir um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção***, incluindo a correção dos dados estatísticos da escavação, a remoção dos nomes de familiares predefinidos e o adiamento do tempo de inicialização do gráfico de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração da comunidade.

Vibe Coding da Milla Jovovich é fixe; o método de marketing não é

Relativamente a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de benchmark para parecer imaculadamente perfeito e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.

Ele considera que, embora a tecnologia de base do MemPalace possa mesmo ser interessante, perante este tipo de falhas nos métodos de teste, e ainda assim apostar na divulgação de “o maior resultado público de sempre”, não é muito apropriado. “Mas, quanto a a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
IA a escrever código corre mal! App “A Teia do Fim” de produto com validade em loja gera problemas de segurança em casa com GPS inteiro nu a correr

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

TipTip atinge a rentabilidade em EBITDA à medida que a IA reforça a bilhética de entretenimento

A plataforma indonésia de entretenimento e experiências TipTip anunciou a 4 de maio que atingiu a rentabilidade em EBITDA a nível de empresa no início de 2026, impulsionada por controlos de custos, melhoria da economia unitária e parceria com o investidor líder East Ventures. Crescimento do bilheteira de entretenimento A TipTip's entretenimento t

CryptoFrontier1h atrás

O cofundador da Astro disponibiliza Rosie como open-source: sincroniza capacidades em 10 agentes de programação com IA

Segundo Beating, Matthew Phillips, cofundador da framework Astro para frontend, disponibilizou Rosie em open-source, uma ferramenta de linha de comandos para gerir pacotes de competências de agentes de IA. A ferramenta detecta automaticamente agentes de programação instalados localmente e sincroniza competências em 10 plataformas, incluindo Claude

GateNews4h atrás

Particle Network lança roteiro de contas universais, disponibiliza o Universal Deposit SDK e lança contas de agentes de IA

De acordo com a ChainCatcher, a Particle Network lançou hoje a próxima fase do plano para Universal Accounts, introduzindo dois novos produtos nos próximos meses: Universal Deposit SDK, permitindo aos programadores adicionar depósitos multi-chain com aproximadamente 10 linhas de código, e Universal Agent Accounts,

GateNews19h atrás

A receita do 1.º trimestre de 2026 da Riot Platforms sobe para 167,2 milhões de dólares com o lançamento do centro de dados

O minerador de Bitcoin Riot Platforms reportou uma receita trimestral total de 167,2 milhões de dólares no 1.º trimestre de 2026, acima dos 161,4 milhões de dólares no mesmo período de 2025, à medida que a empresa gerou 33,2 milhões de dólares com as suas novas operações de centro de dados lançadas recentemente, que servem alojamento de infraestrutura de IA. O marco levou o CEO Jason Les

CryptoFrontier20h atrás

Roblox lança software de IA para desafiar a Unity e a Epic Games

De acordo com a Bloomberg, a Roblox está a lançar um novo software de IA para competir com a Unity Technologies e a Epic Games, cujos motores dominam o desenvolvimento de jogos de grande orçamento. O CEO Dave Baszucki afirmou que a ferramenta tem como objetivo ajudar os criadores a construírem jogos multijogador com gráficos fotorrealistas de forma mais fácil, impulsionada por ar

GateNews05-03 05:21

A Marinha dos EUA assina um contrato de quase 100 milhões de dólares com a Domino Data Lab para deteção de minas no Estreito de Ormuz

De acordo com a Agência de Notícias Xinhua, o Comando de Sistemas de Guerra de Informação da Marinha dos EUA assinou recentemente um contrato com a empresa de IA Domino Data Lab, com sede em São Francisco, para adquirir e implementar soluções de software de machine learning. O contrato, avaliado em quase 100 milhões de dólares se for totalmente executado, tem como objetivo

GateNews05-03 03:11
Comentar
0/400
Nenhum comentário