根據 OpenAI 於 6 月 20 日的官方公告,公司發布 LifeSciBench,一個新的評估基準,旨在衡量 AI 系統在真實世界科學研究任務上的表現。該基準包含 750 個由專家撰寫的任務,涵蓋 7 種研究工作流程與 7 個生物學領域;這些任務由 173 位具備生技或製藥產業經驗、博士層級的研究人員所打造。
超過 79% 的任務需要多步推理,平均每題約 4 步推理。該基準包含 1,062 個真實研究資料附件,例如論文、圖表、序列資料與結構檔案,強調複雜的研究能力,包括證據整合、實驗設計、資料分析、科學推理與研究溝通,而非單純的事實問答。