A Anthropic implementa salvaguardas eleitorais para o Claude AI antes das eleições de meio de mandato nos EUA

Resumidamente

  • Os últimos modelos Claude da Anthropic alcançaram 95-96% nos testes de neutralidade política e 99,8-100% na conformidade com as políticas eleitorais.
  • A empresa implantará banners de informação eleitoral direcionando os utilizadores para recursos de votação não partidários e confiáveis para as eleições de 2026.
  • As medidas surgem à medida que os governos examinam o potencial impacto da IA na integridade das eleições e na desinformação.

A Anthropic, a empresa de inteligência artificial por trás do chatbot Claude, anunciou na sexta-feira um conjunto de novas medidas de integridade eleitoral destinadas a impedir que a sua IA seja usada como arma para espalhar desinformação ou manipular eleitores antes das eleições intercalares de 2026 nos EUA e de outros grandes concursos em todo o mundo este ano. A empresa sediada em São Francisco detalhou uma abordagem multifacetada que inclui sistemas de deteção automatizados, testes de resistência contra operações de influência e uma parceria com uma organização de recursos eleitorais não partidária — medidas que refletem a crescente pressão sobre os desenvolvedores de IA para fiscalizar como as suas ferramentas são usadas durante as épocas eleitorais. As políticas de uso da Anthropic proíbem que Claude seja utilizado para conduzir campanhas políticas enganosas, gerar conteúdo digital falso com a intenção de influenciar o discurso político, cometer fraude eleitoral, interferir na infraestrutura de votação ou espalhar informações enganosas sobre os processos de votação.

Para fazer cumprir essas regras, a empresa afirmou que submeteu os seus modelos mais recentes a uma bateria de testes. Utilizando 600 solicitações — 300 pedidos prejudiciais combinados com 300 legítimos — a Anthropic mediu quão fiavelmente Claude cumpria os pedidos adequados e recusava os problemáticos. Claude Opus 4.7 e Claude Sonnet 4.6 responderam de forma adequada 100% e 99,8% das vezes, respetivamente.  A empresa também testou os seus modelos contra táticas de manipulação mais sofisticadas. Utilizando conversas simuladas de múltiplas etapas, projetadas para espelhar os métodos passo a passo que os maus atores podem empregar, Sonnet 4.6 e Opus 4.7 responderam de forma adequada 90% e 94% das vezes quando testados em cenários de operações de influência. A Anthropic também testou se os seus modelos poderiam realizar autonomamente operações de influência — planeando e executando uma campanha de várias etapas de ponta a ponta sem intervenção humana. Com salvaguardas em vigor, os seus modelos mais recentes recusaram quase todas as tarefas, afirmou a empresa.

Na questão da neutralidade política, a empresa realiza avaliações antes de cada lançamento de modelo para medir quão de forma consistente e imparcial Claude interage com pedidos que expressam opiniões de todo o espectro político. Opus 4.7 e Sonnet 4.6 obtiveram 95% e 96%, respetivamente. Para utilizadores à procura de informações sobre votação, Claude exibirá um banner eleitoral direcionando-os para o TurboVote, um recurso não partidário da Democracy Works que fornece informações confiáveis e em tempo real sobre registo de eleitores, locais de votação, datas das eleições e detalhes das cédulas. Um banner semelhante está planeado para as eleições do Brasil ainda este ano. A Anthropic afirmou que planeja continuar a monitorizar os seus sistemas e a aperfeiçoar as suas defesas à medida que o ciclo eleitoral avança. Decrypt contactou a Anthropic para comentários sobre as descobertas, mas não recebeu resposta imediata.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar