OpenAI выпустила LifeSciBench с 750 экспертными задачами для оценки ИИ в реальных научных рабочих процессах

Odaily сообщает, что OpenAI выпустила LifeSciBench — новый оценочный бенчмарк, включающий 750 задач, написанных экспертами, по 7 научным исследовательским рабочим процессам и 7 областям биологии. Бенчмарк разработали 173 исследователя с PhD и опытом в биотехнологической или фармацевтической отраслях.

Более 79% задач требуют многоэтапного рассуждения — в среднем по 4 шага рассуждения на задачу — при этом в бенчмарк входят 1 062 реальных научных набора данных в виде вложений, включая статьи, диаграммы, данные последовательностей и структурные файлы. Бенчмарк оценивает сложные исследовательские возможности, такие как интеграция доказательств, экспериментальный дизайн, анализ данных, научное рассуждение и исследовательская коммуникация.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев