喜鹊

 找回密码
 立即注册
查看: 11|回复: 0

[综合讨论] OpenAI发布LifeSciBench:衡量AI系统在真实科研场景中的能力

[复制链接]

64

主题

107

帖子

2050

积分

Vip 2

Rank: 3Rank: 3

     经验
2050
     喜币
16882
     竞拍币
1620
发表于 2026-6-20 00:25 | 显示全部楼层 |阅读模式
OpenAI 发布全新评测基准 LifeSciBench,旨在衡量 AI 系统在真实科研场景中的能力。据悉,LifeSciBench 基于 750 道专家编写任务,覆盖 7 类科研工作流与 7 个生物学领域,任务来源于 173 名具有博士背景并具备生物科技或制药行业经验的科研人员,该基准强调复杂科研能力评估,包括证据整合、实验设计、数据分析、科学推理与科研沟通等能力,而非单一事实性问题。超过 79%的任务包含多步骤推理,平均每道题需约 4 个推理步骤,并包含 1,062 个真实科研相关数据附件(如论文、图表、序列数据及结构文件等)。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


Archiver|喜鹊

GMT+8, 2026-6-20 03:06 , Processed in 0.105801 second(s), 20 queries .

喜鹊社区 喜鹊

喜鹊社区 © 2022-,

快速回复 返回顶部 返回列表