Hugging Face · Daily Papers

用于长时程生产力模拟的大规模合成计算机

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao

来自 Microsoft

二〇二六年五月一日 · arXiv:2604.28181 · PDF

摘要

真实的长周期生产力工作高度依赖用户特定的计算机环境，其中大量工作上下文通过目录结构和内容丰富的 artifacts（如文档、电子表格和演示文稿）来存储和组织。为扩展此类生产力场景的合成数据创建，我们提出 Synthetic Computers at Scale，这是一种可扩展的方法，用于创建具有真实文件夹层级和内容丰富 artifacts 的环境。基于每台合成计算机，我们运行长周期模拟：一个 agent 创建与该计算机用户相关的生产力目标，这些目标需要多个专业 deliverables，并相当于约一个月的人类工作量；另一个 agent 随后扮演该用户，在计算机中持续工作——例如浏览文件系统以获得 grounding、与模拟协作者协调，并生成专业 artifacts——直到完成这些目标。

在初步实验中，我们创建了 1,000 台合成计算机，并在其上运行长周期模拟；每次运行需要超过 8 小时的 agent 运行时间，平均涵盖超过 2,000 轮交互。这些模拟产生了丰富的经验学习信号，其有效性通过 agent 在域内和域外生产力评估中的显著性能提升得到验证。鉴于 persona 可达到十亿级规模，原则上，在算力充足的情况下，该方法可以扩展到数百万甚至数十亿个合成用户世界，从而更广泛地覆盖不同职业、角色、上下文、环境和生产力需求。我们认为，可扩展的合成计算机创建与大规模模拟相结合，有望成为长周期生产力场景中 agent 自我改进和 agentic reinforcement learning 的基础底座。