Claude Fable 5 вернулся в строй 1 июля, что вызвало противоречивые оценки производительности от двух платформ бенчмаркинга ИИ. BridgeBench сообщил о падении показателя отладки с 86,2 до 25,9, в то время как Arena.AI обнаружила, что производительность практически не изменилась на основе тысяч анонимных голосов предпочтений. Расхождение объясняется новым классификатором безопасности Anthropic, который направляет большинство задач по кодированию на Claude Opus 4.8, а не фактическим снижением возможностей модели, согласно анализам, опубликованным 2 июля. Классификатор был развернут в качестве условия восстановления после того, как исследователи Amazon продемонстрировали технику джейлбрейка в июне, что вызвало вмешательство правительства США по соображениям национальной безопасности.
BridgeMind повторно запустил полный набор тестов кодирования для версии Fable 5 от 1 июля в день её возвращения. BridgeBench тестирует реальные задачи кодирования по категориям, включая отладку, рефакторинг и устойчивость к галлюцинациям, оценивая от 0 до 100, насколько хорошо модель справляется с каждой категорией. Отладка упала с 86,2 до 25,9, рефакторинг — с 73,6 до 38,4, а устойчивость к галлюцинациям — с 75,9 до 61,7.
Из 12 задач по отладке TypeScript только три действительно были обработаны Fable 5. Остальные девять были перехвачены новым классификатором безопасности Anthropic и перенаправлены на Claude Opus 4.8. BridgeBench оценивает каждое перенаправление как ноль, поскольку модель, которая отвечала, не была оцениваемой. Классификатор был обучен блокировать технику джейлбрейка, о которой сообщили Amazon, — ту, что заставила Fable 5 выявлять и демонстрировать уязвимости ПО. Отладка TypeScript для классификатора выглядит достаточно похожей на работу в сфере безопасности, чтобы перенаправление срабатывало постоянно.
Arena.AI рассмотрел тот же вопрос под другим углом. Платформа собирает тысячи анонимных голосов предпочтений по множеству категорий — текст, зрение, документы, код и агент — и ранжирует модели с помощью рейтинга Эло. Когда две модели соревнуются анонимно, а люди выбирают победителя, оценка отражает реальное воспринимаемое качество, а не инфраструктурную маршрутизацию.
Сравнение до и после показало, что Fable 5 в основном сохраняет позиции. Фронтенд-код упал с 1650 до 1623 Эло — разница, которую Arena отметила как находящуюся в пределах доверительного интервала, по мере накопления данных. Производительность по документам улучшилась на 34 пункта. Экспертный текст вырос на 25. Креативное письмо незначительно увеличилось на 9. Категории, которые снизились — кодирование на -18, сложные запросы (hard prompts) на -3 — это именно те, где классификатор с наибольшей вероятностью перехватит запрос до того, как Fable сможет ответить.
Обычные пользователи, занимающиеся креативным письмом, анализом документов, исследованиями и экспертными текстовыми запросами, скорее всего, не заметят никакой разницы. Это те категории, где Arena.AI показывает стабильную или улучшенную производительность. Писатели, исследователи и аналитики получат того Fable 5, которого ожидали.
Любой, кто работает в смежных с безопасностью областях — кодирование управления памятью, всё, что касается слов вроде уязвимость, эксплойт, хук или даже исправление — будет регулярно сталкиваться с перенаправлением. Разрыв между коллапсом BridgeBench и стабильностью Arena сводится к типу задач. BridgeBench загружает свой набор именно такими запросами по исправлению кода и отладке, которые активируют новый классификатор. Человеческие голосующие Arena задают гораздо более широкий круг вопросов, и большинство из них не похожи на код эксплойта для слоя безопасности.
Anthropic заявил, что со временем классификаторы будут улучшаться, признавая, что пока они охватывают слишком широкий круг. Первоначальный запрет был введён после того, как исследователи Amazon нашли способ заставить Fable выявлять и демонстрировать уязвимости ПО — и правительство США расценило это как угрозу национальной безопасности. Исправление заключалось в том, чтобы сделать классификатор достаточно консервативным для обнаружения этого и всего похожего, а затем со временем его ослабить. Anthropic не назвал целевой даты, когда это произойдёт.
Почему показатель отладки Claude Fable 5 упал с 86,2 до 25,9 в BridgeBench?
Классификатор безопасности перенаправил девять из двенадцати задач по отладке TypeScript на Claude Opus 4.8 вместо Fable 5. BridgeBench оценивает каждое перенаправление как ноль, поскольку оцениваемая модель не обрабатывала задачу, что привело к резкому снижению оценки, несмотря на отсутствие изменений в фактических возможностях Fable 5.
Что Arena.AI обнаружил о производительности Fable 5 после восстановления 1 июля?
Arena.AI собрал тысячи анонимных голосов предпочтений и обнаружил, что производительность Fable 5 в основном осталась на уровне июньской версии. Производительность по документам улучшилась на 34 пункта, а экспертный текст — на 25 пунктов, в то время как фронтенд-код упал с 1650 до 1623 Эло — разница в пределах доверительного интервала.
Связанные новости
Microsoft запускает компанию Frontier с инвестициями в AI на сумму 2,5 миллиарда долларов
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Выход Meta на рынок облачных вычислений спровоцировал цепное обрушение акций производителей AI-оборудования.
США снимает экспортные ограничения на AI-модели Anthropic Fable 5 и Mythos 5.