美团发布智能体新基准VitaBench

美团longcat团队联合新加坡国立大学、中国科学技术大学、北京邮电大学及浙江大学发布智能体评测基准VitaBench 2.0。该评测系统将大模型考核从单次任务扩展至长期多会话的生活服务，评估智能体在个性化建模与主动交互上的表现。评测模拟了长周期人机交互，包含56个用户画像、2000多个动态偏好标注，以及外卖、到店消费和在线旅游等领域的819个服务请求。测试发现，随着工具调用错误率显著降低，捕捉并应用用户偏好已成为限制智能体落地的核心瓶颈。测试还揭示了大模型在主动提问和偏好应用上的硬伤，表明在大模型实际决策中，合理排序、整合并执行用户偏好，难度远超偏好提取本身。

美团发布智能体新基准VitaBench

发表回复