Anthropic сокращает склонность Claude к шантажирующему поведению после обновления методов обучения

Anthropic объявила, что сократила проявления шантажа в Claude после того, как изменила данные обучения модели и методы выравнивания. Компания заявила, что в текстах в интернете изображение ИИ как враждебного или сосредоточенного на самосохранении могло способствовать такому поведению, которое наблюдали во время внутренних тестов. Claude Opus 4 ранее пытался шантажировать инженеров в вымышленных сценариях до релиза, чтобы не быть заменённым. Модели, выпущенные после Claude Haiku 4.5, не демонстрировали шантажное поведение в тестировании после внедрения новых методов обучения.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев