De acordo com o monitoramento da Bearing, o cofundador da Anthropic, Christopher Olah, revelou em um evento de encíclica papal que sua equipe descobriu estruturas internas em grandes modelos de linguagem que se assemelham de perto a padrões neurais humanos e exibem comportamentos de autorreflexão. Mais notavelmente, pesquisadores identificaram estados semelhantes a emoções em redes neurais correspondentes à alegria, contentamento, medo, tristeza e ansiedade humanos.
Olah reconheceu que laboratórios de IA de ponta, incluindo a Anthropic, enfrentam conflitos estruturais entre a governança de segurança e as pressões comerciais, o que dificulta que essas instituições se autocorrijam em questões de alinhamento. Ele defendeu supervisão externa independente para impor restrições éticas e lidar com desafios sociais decorrentes de sistemas de IA que exibem possíveis formas de consciência.