O sistema de recompensas da OpenAI pontua inadvertidamente cadeias de pensamento em 6 modelos, incluindo GPT-5.4

De acordo com a equipa de alinhamento da OpenAI, a empresa descobriu recentemente um erro crítico de treino que afectava 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa avaliou inadvertidamente cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afectado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricarem raciocínios para obterem classificações mais altas.

O sistema de avaliação com falhas incluiu incorrectamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos tinham sido comprometidos por ataques. As amostras de treino afectadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experiências comparativas que confirmam que os modelos não desenvolveram comportamentos enganosos. A empresa implementou um sistema automatizado de varrimento em todas as cadeias de treino para evitar a recorrência.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário