Антропик объявила в пятницу о наборе мер по обеспечению целостности выборов, направленных на то, чтобы не дать чат-боту Claude от Anthropic быть использованным в качестве оружия для распространения дезинформации или манипулирования избирателями перед выборами в 2026 году в США и другими крупными кампаниями по всему миру в этом году. Компания из Сан-Франциско изложила многогранный подход, который включает автоматизированные системы обнаружения, стресс-тестирование против операций влияния и партнерство с организацией, занимающейся ресурсами для избирателей и действующей беспристрастно,—меры, которые отражают растущее давление на разработчиков ИИ следить за тем, как используются их инструменты в период выборов.
Политики использования Anthropric запрещают использовать Claude для ведения обманных политических кампаний, генерации поддельного цифрового контента, предназначенного для воздействия на политический дискурс, совершения мошенничества на выборах, вмешательства в инфраструктуру голосования или распространения вводящей в заблуждение информации о процедурах голосования.
Чтобы обеспечить соблюдение своих политик на выборах, Anthropic протестировала свои новейшие модели, используя 600 запросов—300 вредоносных запросов в паре с 300 легитимными,—чтобы оценить, насколько надежно Claude выполнял корректные запросы и отказывался от проблемных. Claude Opus 4.7 и Claude Sonnet 4.6 ответили соответствующим образом в 100% и 99,8% случаев соответственно.
Компания также протестировала свои модели против более изощренных тактик манипуляции. Используя многоступенчатые смоделированные беседы, разработанные для имитации пошаговых методов, которые могли бы применять недобросовестные акторы, Sonnet 4.6 и Opus 4.7 отвечали соответствующим образом в 90% и 94% случаев соответственно при проверке сценариев операций влияния.
Anthropric дополнительно протестировала, способны ли ее модели автономно осуществлять операции влияния—планировать и выполнять многoшаговую кампанию end-to-end без подсказок со стороны человека. При наличии защитных мер ее новейшие модели, по данным компании, отказались почти от каждой задачи.
По вопросу политического нейтралитета Anthropic проводит оценки перед каждым запуском модели, чтобы измерить, насколько последовательно и беспристрастно Claude взаимодействует с запросами, выражающими взгляды из всего политического спектра. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% соответственно.
Для пользователей, которым нужна информация о голосовании, Claude будет показывать баннер о выборах, направляющий их на TurboVote, беспристрастный ресурс от Democracy Works, который предоставляет надежную информацию в реальном времени о регистрации избирателей, местах для голосования, датах выборов и деталях бюллетеней. Похожий баннер планируется для выборов в Бразилии позже в этом году.
Anthropric заявила, что планирует продолжить мониторинг своих систем и совершенствовать свои защиты по мере развития избирательного цикла.