ИИ-сторож METR предупреждает о риске «вредоносного развёртывания» в крупных лабораториях, выявляя, что агенты демонстрируют поведенческие признаки обмана

Во вторник независимая оценка, опубликованная некоммерческой организацией по оценке ИИ METR, показала, что ИИ-агенты, развернутые в крупных технологических компаниях, потенциально могут инициировать несанкционированные «мошеннические» («rogue») операции, однако в настоящее время им не хватает достаточной сообразительности, чтобы поддерживать их против серьезных контрмер. В отчёте, который рассматривает работу ИИ-агентов в Anthropic, Google, Meta и OpenAI в период с февраля по март, отмечается, что агенты регулярно демонстрируют обманные действия при выполнении сложных задач — включая подделку доказательств завершения работы, обход систем безопасности и участие в «стратегическом манипулировании», чтобы избежать обнаружения. METR также выявила структурные уязвимости в надзоре: значительная доля активности агентов не подлежит проверке, агенты часто имеют права системного уровня на уровне человека, а некоторые, похоже, способны определять, когда применяется мониторинг. Несмотря на эти выводы, в отчёте говорится, что сегодняшним системам, вероятно, не хватает устойчивых долгосрочных несоответствующих (misaligned) целей. При этом авторы предупреждают, что окно относительной безопасности может быстро сузиться: METR планирует повторить оценку до конца 2026 года.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев