De acordo com o anúncio oficial da OpenAI de 20 de junho, a empresa lançou o LifeSciBench, um novo benchmark de avaliação concebido para testar sistemas de IA em tarefas reais de investigação científica. O benchmark é composto por 750 tarefas escritas por especialistas, distribuídas por 7 fluxos de trabalho de investigação e 7 domínios de biologia, criadas por 173 investigadores com nível de doutoramento e experiência na indústria de biotecnologia ou farmacêutica.
Mais de 79% das tarefas exigem raciocínio multi-etapa, com uma média de cerca de 4 passos de raciocínio por pergunta. O benchmark inclui 1.062 anexos reais de dados de investigação, como artigos, gráficos, dados de sequências e ficheiros estruturais, destacando capacidades complexas de investigação, incluindo integração de evidência, desenho experimental, análise de dados, raciocínio científico e comunicação de investigação, em vez de perguntas simples de factos.