根据 OpenAI 在 6 月 20 日的官方公告,该公司发布了 LifeSciBench,这是一项新的评估基准,旨在评估 AI 系统在真实世界科学研究任务中的表现。该基准包含 750 项由专家撰写的任务,覆盖 7 种研究工作流程和 7 个生物学领域,由 173 位具有生物技术或制药行业经验、博士水平的研究人员创建。
超过 79% 的任务需要多步推理,每个问题平均约 4 步推理。该基准还包括 1,062 个真实研究数据附件,例如论文、图表、序列数据和结构文件,强调复杂的研究能力,包括证据整合、实验设计、数据分析、科学推理和研究沟通,而不是简单的事实性问题。