Система вознаграждений OpenAI непреднамеренно оценивает цепочки рассуждений на 6 моделях, включая GPT-5.4

Команда по согласованию (alignment) OpenAI недавно обнаружила критическую ошибку в обучении, затрагивающую 6 крупных языковых моделей, включая GPT-5.4. Ошибка заключалась в том, что механизм вознаграждения случайно присваивал баллы «цепочкам мышления» — внутреннему процессу рассуждений перед формированием ответов. На GPT-5.5 это не повлияло.

Инцидент нарушает фундаментальный принцип безопасности ИИ: цепочки мышления нельзя оценивать, поскольку это может побудить модели выдумывать рассуждения для получения более высоких оценок.

Сбойная система скоринга ошибочно включала цепочки мышления при проверке того, были ли ответы полезными, а также при оценке того, были ли модели скомпрометированы атаками. Затронутые обучающие примеры составляли максимум 3,8% набора данных. OpenAI устранила уязвимость и провела сравнительные эксперименты, подтвердившие, что модели не выработали обманного поведения. Компания внедрила автоматизированную систему сканирования во всех конвейерах обучения, чтобы предотвратить повторение.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев