A Mira Jojava Viki usa IA para criar um “projecto de pontuação máxima”? Teste de um programador: é mesmo de qualidade ou é pura exagero e promoção?

O sistema de memórias com IA “MemPalace”, desenvolvido por Milla Jovovich e Vicky (Vitki) , alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas foi rapidamente desmascarado pela comunidade, que levantou suspeitas de fraude nos testes e de dados potencialmente enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros; a equipa já admitiu falhas e está a trabalhar na sua correção.

Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Ontem (4/7), houve uma grande notícia no meio da IA: a actriz de Hollywood, conhecida por “Resident Evil” e “O Quinto Elemento”, Milla Jovovich (Milla Jovovich), juntamente com o programador Ben Sigman, usou o Claude Code para desenvolver o sistema de código aberto de memórias com IA “MemPalace”.

A certa altura, espalhou-se amplamente a ideia de “uma estrela de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já recebeu mais de 20 mil estrelas no GitHub; no entanto, muito rapidamente, a comunidade de programadores começou a questionar: será que é mesmo bom ou é só marketing?

Vamos primeiro ao motivo do nascimento do MemPalace. A documentação oficial afirma que a intenção é resolver uma limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e IA, os processos de decisão e as discussões de arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que meses de esforço acabem por cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em áreas em forma de asas que representam pessoas ou projetos, bem como em estruturas a diferentes níveis, como corredores, salas e gavetas, mantendo o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no referencial de avaliação de memória de longa duração LongMemEval, e alcançou 96,6% de precisão sem chamar nenhuma API externa; além disso, pode funcionar completamente no local, sem necessidade de subscrever serviços na nuvem, e inclui um alegado sistema de dialeto AAAK capaz de atingir compressão sem perda 30 vezes.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Concorrentes e comunidade levantam dúvidas em conjunto; método de teste e falhas na promoção

No entanto, a alegada pontuação perfeita do MemPalace no LongMemEval trouxe rapidamente desconfiança por parte dos concorrentes.

A PenfieldLabs, que também produz sistemas de memória com IA, apontou que a alegação do MemPalace de obter pontuação máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão do próprio conjunto de dados já incluem 99 erros.

Ao analisar, a PenfieldLabs descobriu que o desempenho de 100% do MemPalace resulta de definir o número de recuperações para 50, mas o número mais alto de etapas de diálogo nos dados de teste é apenas 32; isto significa que o sistema contorna diretamente a fase de recuperação, entregando todos os dados ao modelo de IA para leitura.

Quanto ao desempenho de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento focou-se em 3 problemas específicos que surgiram ao nível do desenvolvimento e escreveu código de correção dedicado, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Os concorrentes PenfieldLabs apontam que o MemPalace alega obter pontuação máxima no conjunto de dados LoCoMo, o que é matematicamente impossível

Teste prático por utilizadores do GitHub; componentes de desinformação no benchmark

O utilizador do GitHub hugooconnor comentou após testes reais: quando o MemPalace alega ter até 96,6% de precisão de recuperação, na prática não utiliza de todo a arquitetura de “memórias-palácio” que a plataforma promove. hugooconnor afirma que os seus testes apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de classificação das “alas”, “salas” ou “gavetas” que o projeto enfatiza.

Após testar, o hugooconnor descobriu que quando o sistema realmente ativa a lógica de classificação exclusiva dessas “memórias-palácio”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, ambos inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz deliberadamente o intervalo de recuperação de cada questão para cerca de 50 etapas de diálogo, tornando demasiado simples encontrar respostas num conjunto de amostras extremamente pequeno.

Se expandir o intervalo para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce para 30%, mostrando que o método de teste atual do MemPalace esconde o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizadores do GitHub testam na prática; o benchmark do MemPalace tem componentes de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento tenha publicado uma declaração de retificação, reconhecendo que a tecnologia AAAK foi realmente validada como compressão com perdas, e se tenha comprometido a corrigir as explicações nos documentos e no desenho do sistema com base nas críticas severas da comunidade. Ainda assim, o documento principal de apresentação do projeto mantém várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30 vezes e aumento de recuperação de 34%, e também as tabelas e gráficos de comparação com outros concorrentes não apresentam completamente qualquer fonte.

O código-fonte do MemPalace enfrenta vários bugs

Com o aumento do número de programadores a descarregar os testes, apareceram no GitHub muitos relatórios de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e causa a queda do sistema, erros na lógica de contagem do número de palavras do resumo, e estatísticas imprecisas ao “escavar” as salas, bem como o facto de o servidor carregar todas as interpretações dos dados para a memória sempre que é chamado, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem também o sistema gravar à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos, e a existência de um limite máximo forçado de exibição de 10k registos ao verificar o estado.

Para estes problemas, a comunidade open source já começou a repará-los ativamente. O utilizador adv3nt3 enviou váriassolicitaçõesde correção, incluindo a correção dos dados estatísticos do “escavar”, a remoção dos nomes predefinidos de familiares e o adiamento do tempo de inicialização do gráfico de conhecimento. A equipa de desenvolvimento também reconheceu posteriormente estes erros, e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O “Vibe Coding” da Milla Jovovich é fixe; a forma de marketing não é fixe

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, chegou a esta conclusão: o MemPalace dá a sensação de “OpenClaw”, ou seja, manipula artificialmente os resultados do benchmark para parecer impecável, e depois embala tudo como se fosse algum grande avanço para vender o produto.

Ele acredita que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas, com falhas desse tipo no método de teste, ainda assim fazer a promoção com “a pontuação pública mais alta de sempre” é, no mínimo, pouco adequado; “mas, no que toca a a Milla Jovovich estar a brincar a Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
A IA ao escrever código deu para o torto! A app “Caçador de Salvação” de produtos com validade de supermercado revelou problemas de segurança na informação; o GPS em casa ficou todo a céu aberto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Do banheiro ao fornecedor de temperos: o valor da cadeia de suprimentos impulsionado por IA, que empresas estão ajudando?

O “boom” dos dividendos da onda de inteligência artificial continua se espalhando. Dos gigantes de tecnologia como a Nvidia até empresas como a TSMC, agora também companhias japonesas que produzem vasos sanitários — e um grupo de alimentos que começou com glutamato — têm se tornado, silenciosamente, vencedores invisíveis dessa febre de infraestrutura para IA. O crescimento delas revelou uma tendência-chave: o efeito de transbordamento de valor da cadeia de suprimentos de IA já se infiltrou profundamente na indústria manufatureira tradicional, gerando oportunidades ainda mais diversas de transformação. Fabricante de vasos sanitários TOTO: a tecnologia de cerâmica acerta, por acaso, a demanda de processo de wafers A japonesa TOTO, grande empresa do setor de banheiros, é conhecida mundialmente por suas tampas de vaso sanitário de alta qualidade e se dedica à fabricação de cerâmica há mais de 40 anos. Ainda assim, é justamente essa arte tradicional aparentemente sem relação com tecnologia que acabou encontrando um novo palco nos processos de semicondutores. A TOTO anunciou recentemente que vai utilizar sua especialidade em tecnologia de cerâmica para produzir o Electrostatic Chuck, usado na fabricação de chips. Assim que a notícia saiu, a ação da empresa caiu de

ChainNewsAbmedia1h atrás

A MediaTek Contrata Ex-Executivo da TSMC para Expansão de Chips de IA

O designer de chips taiwanês MediaTek nomeou Douglas Yu, ex-executivo da Taiwan Semiconductor Manufacturing Co (TSMC), como conselheiro em regime parcial em 4 de maio, informou a Reuters. A medida apoia a expansão da MediaTek no mercado de chips de IA e seu avanço na tecnologia de empacotamento. Advanced

CryptoFrontier1h atrás

OpenAI faz parceria com a Yubico para oferecer chaves de segurança de hardware personalizadas

De acordo com a Yubico, a OpenAI fez parceria com a fabricante de chaves de segurança baseada em Estocolmo para oferecer YubiKeys personalizados por meio do seu programa Advanced Account Security. O programa mira usuários com maior risco de ataques de phishing e de sequestro de contas. O pacote inclui um YubiKey C NFC para dispositivos móveis e um Y

GateNews1h atrás

Índia alerta para riscos cibernéticos à medida que a IA Mythos da Anthropic viola defesas em 83 dos 100 casos de teste

De acordo com o The Economic Times, a agência de cibersegurança da Índia emitiu recentemente um aviso de alta gravidade depois que o Mythos AI, da Anthropic, demonstrou a capacidade de encontrar dezenas de milhares de vulnerabilidades e transformar falhas de software em ataques exploráveis em minutos. A Unit 42 da Palo Alto Networks e

GateNews3h atrás

Oportunidade de entrada agora para investidores que estão vendo 1 ação se transformar em 480 ações, antes do próximo split de ações da Nvidia?

Este texto revisita várias divisões de ações da Nvidia desde sua abertura na bolsa em 1999, que fizeram as participações dos primeiros investidores aumentarem para 480 ações por conta dos desdobramentos, e que, em 2024, com um desdobramento de 10 por 1, ajustaram o preço das ações para cerca de US$ 120. Impulsionada pela demanda global por infraestrutura de IA, a Nvidia se tornou um fornecedor central para data centers, com valor de mercado chegando a quase US$ 5 trilhões, e o impulso de crescimento continua forte. Analistas preveem que o próximo desdobramento dependerá do preço da ação e do desempenho de crescimento; no momento, a ação está por volta de US$ 198 e, se o crescimento prosseguir, ou se surgir uma nova oportunidade de entrada, mas isso é apenas para observação do mercado, não uma recomendação de investimento.

ChainNewsAbmedia3h atrás

Google e VNG lançam o Applied AI Lab no Vietnã em 4 de maio

De acordo com a VNG Corporation, o Google, a VNG e a Universidade Nacional do Vietnã, Cidade de Ho Chi Minh, lançaram um Applied AI Lab no Vietnã por meio da Saigon AI Hub em 4 de maio. O Google Labs e os AI Future Funds fornecerão a equipes selecionadas acesso antecipado às tecnologias do Google, suporte técnico do Google e

GateNews3h atrás
Comentário
0/400
Sem comentários