OpenAI publie LifeSciBench pour évaluer l’IA sur de vraies tâches de recherche, avec 750 éléments rédigés par des experts dans 7 domaines de la biologie

D’après l’annonce officielle d’OpenAI du 20 juin, la société a publié LifeSciBench, un nouveau banc d’évaluation conçu pour mesurer les systèmes d’IA sur des tâches de recherche scientifique en conditions réelles. Le banc de test comprend 750 tâches rédigées par des experts, couvrant 7 workflows de recherche et 7 domaines de la biologie, créées par 173 chercheurs titulaires d’un doctorat, avec une expérience dans l’industrie biotechnologique ou pharmaceutique.

Plus de 79 % des tâches nécessitent un raisonnement en plusieurs étapes, avec une moyenne d’environ 4 étapes de raisonnement par question. Le banc de test inclut 1 062 pièces jointes de données de recherche réelles, telles que des articles, des graphiques, des données de séquence et des fichiers structurels, mettant l’accent sur des capacités de recherche complexes, notamment l’intégration des preuves, la conception expérimentale, l’analyse des données, le raisonnement scientifique et la communication de la recherche, plutôt que sur de simples questions factuelles.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire