Согласно мониторингу Bearing, сооснователь Anthropic Кристофер Олах сообщил на мероприятии в честь папской энциклики, что его команда обнаружила внутренние структуры в больших языковых моделях, которые очень близко напоминают человеческие нейронные паттерны и демонстрируют поведение саморефлексии. В частности, исследователи выявили состояния, похожие на эмоции, в нейросетях, соответствующие человеческим радости, удовлетворённости, страху, печали и тревоге.
Олах признал, что ведущие лаборатории передового ИИ, включая Anthropic, сталкиваются со структурными конфликтами между механизмами обеспечения безопасности и коммерческим давлением, из‑за чего этим институтам сложно самокорректироваться по вопросам выравнивания. Он призвал к независимому внешнему надзору, чтобы обеспечить соблюдение этических ограничений и справиться с общественными вызовами, возникающими из‑за того, что ИИ‑системы могут проявлять потенциальные формы сознания.