D’après Odaily, OpenAI a publié LifeSciBench, un nouveau banc d’évaluation comprenant 750 tâches rédigées par des experts, couvrant 7 flux de travaux de recherche scientifique et 7 domaines de la biologie. Le banc de test a été développé par 173 chercheurs titulaires d’un doctorat et disposant d’une expérience dans les industries de la biotech ou pharmaceutiques.
Plus de 79 % des tâches nécessitent un raisonnement en plusieurs étapes, avec une moyenne de 4 étapes de raisonnement par tâche, et 1 062 pièces de données scientifiques réelles, dont des articles, des graphiques, des données de séquence et des fichiers structurels. Le banc d’évaluation mesure des capacités de recherche complexes, telles que l’intégration de preuves, la conception d’expériences, l’analyse de données, le raisonnement scientifique et la communication de la recherche.