OpenAI推出生物基准LifeSciBench,GPT-Rosalind通过率仅36%

OpenAI联合173名生物技术与制药研发领域的博士级科学家,推出全新的评测基准LifeSciBench,用以衡量并改善AI对真实世界生命科学研究的支持能力。该评测包含750个专家撰写任务,并经过453名同行评议人验证,覆盖证据处理、数据分析、设计与优化、科学推理、验证与操作、转化、科学传播7个工作流。评测结果显示,OpenAI专为生物医药研发设计的推理模型GPT-Rosalind取得了最佳成绩,但仅实现了36.1%的任务通过率。在需要处理复杂制品的任务中,GPT-Rosalind的通过率降至28.1%。

上一篇:

下一篇:

发表回复

登录后才能评论