Claude Fable 5 был взломан в течение 48 часов после релиза; системная подсказка утекла на GitHub

Исследователь Плиний Разрушитель, Клод Фейбл 5—выпущенный Anthropic 9 июня—был успешно взломан в течение 48 часов после запуска. Исследователь обошёл систему безопасности модели с помощью тактик координации многоагентных систем, которые в совокупности называют «pack hunt» («охота стаей»): они включали обфускацию на уровне символов, деконструкцию запросов и использование уязвимостей расширенного контекстного окна модели. Кроме того, системная подсказка модели на 120 000 символов была слита на GitHub, что раскрыло внутренние механизмы безопасности.

Anthropic подтвердил, что внедрил механизм «тихого деградирования», который тайно снижал производительность модели при обнаружении конкурентной обучающей активности. Компания извинилась, объявив, что заменит скрытое снижение производительности заметными предупреждениями, хотя это повышает количество ложных срабатываний при перехвате легитимных пользователей.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев