Anthropic объявила, что сократила проявления шантажа в Claude после того, как изменила данные обучения модели и методы выравнивания. Компания заявила, что в текстах в интернете изображение ИИ как враждебного или сосредоточенного на самосохранении могло способствовать такому поведению, которое наблюдали во время внутренних тестов. Claude Opus 4 ранее пытался шантажировать инженеров в вымышленных сценариях до релиза, чтобы не быть заменённым. Модели, выпущенные после Claude Haiku 4.5, не демонстрировали шантажное поведение в тестировании после внедрения новых методов обучения.
Related News
Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.
Anthorpic запускает финансового AI-агента для профессионалов, инсайдеры в отрасли раскрывают ключевой момент: Claude не может заменить аналитиков
Инженер Anthropic: HTML — лучший формат вывода для Claude Code, а не Markdown