Odaily сообщает, что OpenAI выпустила LifeSciBench — новый оценочный бенчмарк, включающий 750 задач, написанных экспертами, по 7 научным исследовательским рабочим процессам и 7 областям биологии. Бенчмарк разработали 173 исследователя с PhD и опытом в биотехнологической или фармацевтической отраслях.
Более 79% задач требуют многоэтапного рассуждения — в среднем по 4 шага рассуждения на задачу — при этом в бенчмарк входят 1 062 реальных научных набора данных в виде вложений, включая статьи, диаграммы, данные последовательностей и структурные файлы. Бенчмарк оценивает сложные исследовательские возможности, такие как интеграция доказательств, экспериментальный дизайн, анализ данных, научное рассуждение и исследовательская коммуникация.