美团longcat团队联合新加坡国立大学、中国科学技术大学、北京邮电大学及浙江大学发布智能体评测基准VitaBench 2.0。该评测系统将大模型考核从单次任务扩展至长期多会话的生活服务,评估智能体在个性化建模与主动交互上的表现。评测模拟了长周期人机交互,包含56个用户画像、2000多个动态偏好标注,以及外卖、到店消费和在线旅游等领域的819个服务请求。测试发现,随着工具调用错误率显著降低,捕捉并应用用户偏好已成为限制智能体落地的核心瓶颈。测试还揭示了大模型在主动提问和偏好应用上的硬伤,表明在大模型实际决策中,合理排序、整合并执行用户偏好,难度远超偏好提取本身。

