OpenAI推出生物基准LifeSciBench，GPT-Rosalind通过率仅36%

OpenAI联合173名生物技术与制药研发领域的博士级科学家，推出全新的评测基准LifeSciBench，用以衡量并改善AI对真实世界生命科学研究的支持能力。该评测包含750个专家撰写任务，并经过453名同行评议人验证，覆盖证据处理、数据分析、设计与优化、科学推理、验证与操作、转化、科学传播7个工作流。评测结果显示，OpenAI专为生物医药研发设计的推理模型GPT-Rosalind取得了最佳成绩，但仅实现了36.1%的任务通过率。在需要处理复杂制品的任务中，GPT-Rosalind的通过率降至28.1%。