D’après l’annonce officielle d’OpenAI du 20 juin, la société a publié LifeSciBench, un nouveau banc d’évaluation conçu pour mesurer les systèmes d’IA sur des tâches de recherche scientifique en conditions réelles. Le banc de test comprend 750 tâches rédigées par des experts, couvrant 7 workflows de recherche et 7 domaines de la biologie, créées par 173 chercheurs titulaires d’un doctorat, avec une expérience dans l’industrie biotechnologique ou pharmaceutique.
Plus de 79 % des tâches nécessitent un raisonnement en plusieurs étapes, avec une moyenne d’environ 4 étapes de raisonnement par question. Le banc de test inclut 1 062 pièces jointes de données de recherche réelles, telles que des articles, des graphiques, des données de séquence et des fichiers structurels, mettant l’accent sur des capacités de recherche complexes, notamment l’intégration des preuves, la conception expérimentale, l’analyse des données, le raisonnement scientifique et la communication de la recherche, plutôt que sur de simples questions factuelles.