De acordo com a equipa de alinhamento da OpenAI, a empresa descobriu recentemente um erro crítico de treino que afectava 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa avaliou inadvertidamente cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afectado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricarem raciocínios para obterem classificações mais altas.
O sistema de avaliação com falhas incluiu incorrectamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos tinham sido comprometidos por ataques. As amostras de treino afectadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experiências comparativas que confirmam que os modelos não desenvolveram comportamentos enganosos. A empresa implementou um sistema automatizado de varrimento em todas as cadeias de treino para evitar a recorrência.
Related News
Jeff Kaufman: A IA rompe simultaneamente duas culturas de vulnerabilidades de segurança e um período de embargo de 90 dias acaba por ter um efeito contrário
OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA
Os GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos