OpenAI lance LifeSciBench avec 750 tâches spécialisées pour évaluer l’IA dans de vrais flux de travail scientifiques

D’après Odaily, OpenAI a publié LifeSciBench, un nouveau banc d’évaluation comprenant 750 tâches rédigées par des experts, couvrant 7 flux de travaux de recherche scientifique et 7 domaines de la biologie. Le banc de test a été développé par 173 chercheurs titulaires d’un doctorat et disposant d’une expérience dans les industries de la biotech ou pharmaceutiques.

Plus de 79 % des tâches nécessitent un raisonnement en plusieurs étapes, avec une moyenne de 4 étapes de raisonnement par tâche, et 1 062 pièces de données scientifiques réelles, dont des articles, des graphiques, des données de séquence et des fichiers structurels. Le banc d’évaluation mesure des capacités de recherche complexes, telles que l’intégration de preuves, la conception d’expériences, l’analyse de données, le raisonnement scientifique et la communication de la recherche.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire