OpenAI发布LifeSciBench：衡量AI系统在真实科研场景中的能力

企鹅 · 发表于 2026-6-20 00:25

OpenAI 发布全新评测基准 LifeSciBench，旨在衡量 AI 系统在真实科研场景中的能力。据悉，LifeSciBench 基于 750 道专家编写任务，覆盖 7 类科研工作流与 7 个生物学领域，任务来源于 173 名具有博士背景并具备生物科技或制药行业经验的科研人员，该基准强调复杂科研能力评估，包括证据整合、实验设计、数据分析、科学推理与科研沟通等能力，而非单一事实性问题。超过 79%的任务包含多步骤推理，平均每道题需约 4 个推理步骤，并包含 1,062 个真实科研相关数据附件（如论文、图表、序列数据及结构文件等）。

		自动登录	找回密码
密码			立即注册

[综合讨论] OpenAI发布LifeSciBench：衡量AI系统在真实科研场景中的能力