Hugging Face · Daily Papers
用于长时程生产力模拟的大规模合成计算机
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
来自 Microsoft
摘要
真实的长周期生产力工作高度依赖用户特定的计算机环境,其中大量工作上下文通过目录结构和内容丰富的 artifacts(如文档、电子表格和演示文稿)来存储和组织。为扩展此类生产力场景的合成数据创建,我们提出 Synthetic Computers at Scale,这是一种可扩展的方法,用于创建具有真实文件夹层级和内容丰富 artifacts 的环境。基于每台合成计算机,我们运行长周期模拟:一个 agent 创建与该计算机用户相关的生产力目标,这些目标需要多个专业 deliverables,并相当于约一个月的人类工作量;另一个 agent 随后扮演该用户,在计算机中持续工作——例如浏览文件系统以获得 grounding、与模拟协作者协调,并生成专业 artifacts——直到完成这些目标。
在初步实验中,我们创建了 1,000 台合成计算机,并在其上运行长周期模拟;每次运行需要超过 8 小时的 agent 运行时间,平均涵盖超过 2,000 轮交互。这些模拟产生了丰富的经验学习信号,其有效性通过 agent 在域内和域外生产力评估中的显著性能提升得到验证。鉴于 persona 可达到十亿级规模,原则上,在算力充足的情况下,该方法可以扩展到数百万甚至数十亿个合成用户世界,从而更广泛地覆盖不同职业、角色、上下文、环境和生产力需求。我们认为,可扩展的合成计算机创建与大规模模拟相结合,有望成为长周期生产力场景中 agent 自我改进和 agentic reinforcement learning 的基础底座。