A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.
Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A Tessera Labs conclui a ronda de financiamento $60M liderada pela a16z
De acordo com a Odaily, a startup de automação de IA Tessera Labs anunciou a conclusão de uma ronda de financiamento de 60 milhões de dólares, liderada pela Andreessen Horowitz (a16z), com participação da Foundation Capital, Myriad Venture Partners e Osage University Partners. A plataforma, nascida para IA, automatiza processos empresariais
GateNews1h atrás
Atacantes Injetam 575 Competências Maliciosas no Hugging Face e no ClawHub Usando 13 Contas
Segundo o CISO da Mist Security @im23pds, os atacantes terão comprometido recentemente 13 contas para injectar 575 Skills maliciosas na Hugging Face e na ClawHub (OpenClaw), conforme divulgado na plataforma X.
GateNews1h atrás
A DeepSeek planeia angariar até 50 mil milhões de RMB num recorde de ronda de financiamento, com o modelo V4.1 a chegar em junho
Segundo a PANews, a 8 de maio, a DeepSeek planeia angariar até 50 mil milhões de RMB no seu primeiro ciclo de financiamento, o que marcaria a maior captação única por uma empresa chinesa de IA. Espera-se que o fundador e CEO Liang Wenfeng contribua com o montante máximo. A empresa planeia acelerar a grande linguagem m
GateNews1h atrás
Sportix conclui uma ronda de financiamento de 3,2 milhões de dólares liderada pela Coinvestor Ventures, Animoca Brands
De acordo com a ChainCatcher, a plataforma de infraestruturas de IA para desporto Sportix concluiu uma ronda de financiamento de 3,2 milhões de dólares. A ronda foi liderada pela Coinvestor Ventures, com participação da Animoca Brands, Becker Ventures, X21 Digital e Alpha Capital.
A Sportix disse que vai usar os fundos para avançar a sua IA
GateNews1h atrás
Os custos dos dados de treino de robôs caem 65% desde 2024, passando de 340 dólares para 118 dólares por hora
De acordo com a Cointelegraph, os custos dos dados de treino de robôs caíram 65% desde 2024, passando de 340 dólares por hora para 118 dólares por hora em 2026.
GateNews2h atrás
A China Mobile anuncia uma aliança de ecossistema de aplicação de tokens com 8 parceiros em 8 de maio
De acordo com a PANews, a 8 de maio, a China Mobile anunciou a criação de uma Token Application Ecosystem Alliance, com 8 parceiros, incluindo a Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança tira partido da plataforma de agregação do modelo MoMA para construir uma gateway de serviços unificada para a IA doméstica m
GateNews2h atrás