Anthropic внедряет защитные меры для выборов для Claude перед промежуточными выборами 2026 года

Антропик объявила в пятницу о наборе мер по обеспечению целостности выборов, направленных на то, чтобы не дать чат-боту Claude от Anthropic быть использованным в качестве оружия для распространения дезинформации или манипулирования избирателями перед выборами в 2026 году в США и другими крупными кампаниями по всему миру в этом году. Компания из Сан-Франциско изложила многогранный подход, который включает автоматизированные системы обнаружения, стресс-тестирование против операций влияния и партнерство с организацией, занимающейся ресурсами для избирателей и действующей беспристрастно,—меры, которые отражают растущее давление на разработчиков ИИ следить за тем, как используются их инструменты в период выборов.

Политики использования на выборах

Политики использования Anthropric запрещают использовать Claude для ведения обманных политических кампаний, генерации поддельного цифрового контента, предназначенного для воздействия на политический дискурс, совершения мошенничества на выборах, вмешательства в инфраструктуру голосования или распространения вводящей в заблуждение информации о процедурах голосования.

Результаты тестирования на соответствие

Чтобы обеспечить соблюдение своих политик на выборах, Anthropic протестировала свои новейшие модели, используя 600 запросов—300 вредоносных запросов в паре с 300 легитимными,—чтобы оценить, насколько надежно Claude выполнял корректные запросы и отказывался от проблемных. Claude Opus 4.7 и Claude Sonnet 4.6 ответили соответствующим образом в 100% и 99,8% случаев соответственно.

Компания также протестировала свои модели против более изощренных тактик манипуляции. Используя многоступенчатые смоделированные беседы, разработанные для имитации пошаговых методов, которые могли бы применять недобросовестные акторы, Sonnet 4.6 и Opus 4.7 отвечали соответствующим образом в 90% и 94% случаев соответственно при проверке сценариев операций влияния.

Anthropric дополнительно протестировала, способны ли ее модели автономно осуществлять операции влияния—планировать и выполнять многoшаговую кампанию end-to-end без подсказок со стороны человека. При наличии защитных мер ее новейшие модели, по данным компании, отказались почти от каждой задачи.

Оценка политического нейтралитета

По вопросу политического нейтралитета Anthropic проводит оценки перед каждым запуском модели, чтобы измерить, насколько последовательно и беспристрастно Claude взаимодействует с запросами, выражающими взгляды из всего политического спектра. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% соответственно.

Баннеры с информацией о выборах

Для пользователей, которым нужна информация о голосовании, Claude будет показывать баннер о выборах, направляющий их на TurboVote, беспристрастный ресурс от Democracy Works, который предоставляет надежную информацию в реальном времени о регистрации избирателей, местах для голосования, датах выборов и деталях бюллетеней. Похожий баннер планируется для выборов в Бразилии позже в этом году.

Постоянный мониторинг

Anthropric заявила, что планирует продолжить мониторинг своих систем и совершенствовать свои защиты по мере развития избирательного цикла.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев