π-Bench：长周期工作流中主动式个人助理Agent的评估

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He 等 14 位

来自 Simplified Reasoning

二〇二六年五月二十二日 · arXiv:2605.14678 · PDF · Code

摘要

个人助理代理（如 OpenClaw）的兴起，凸显了大语言模型在日常生活与工作中支持用户的巨大潜力。这类场景的核心挑战在于主动协助——用户往往以模糊的请求开始，未明确表达重要的需求、约束或偏好。然而，现有基准测试很少评估代理能否在用户明确表述之前识别并响应这些隐藏意图，尤其是在用户需求逐步浮现的持续多轮交互中。为填补这一空白，我们提出 π-Bench，一个面向主动协助的基准测试，包含 5 个领域特定用户画像下的 100 个多轮任务。通过引入隐藏用户意图、任务间依赖关系以及跨会话连续性，π-Bench 评估代理在长时间交互中预判并满足用户需求的能力，在更贴近真实场景的长程轨迹中联合衡量任务完成度与主动性。实验表明：（1）主动协助仍具挑战性；（2）任务完成与主动性之间存在明显区分；（3）先前交互对后续任务中主动意图的解决具有重要价值。

译自 Hugging Face · Daily Papers · arXiv:2605.14678 · 录于二〇二六年五月二十二日