Hugging Face · Daily Papers

HeavySkill：将 Heavy Thinking 作为 Agentic Harness 的内在技能

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Jianing Wang, Linsen Guo, Zhengyu Chen, Qi Guo, Hongyu Zang, Wenjie Shi, Haoxiang Ma, Xiangyu Xi 等 11 位

来自 LongCat

二〇二六年五月六日 · arXiv:2605.02396 · PDF · Code

摘要

近期，agentic harness（智能体执行框架）方面的进展显著提升了复杂推理任务的表现。这类 orchestration framework（编排框架）能够协调多个具备 memory、skills 和 tool use 能力的 agents。然而，真正驱动性能提升的底层机制，仍被复杂的系统设计所遮蔽。

本文提出 HeavySkill 这一视角：heavy thinking 不仅是 orchestration harness 中的最小执行单元，也是一种内化于模型参数中的内部 skill，能够驱动 orchestrator 解决复杂任务。我们将这种 skill 识别为一个两阶段 pipeline，即先进行 parallel reasoning，再进行 summarization；该 pipeline 可以在任何 agentic harness 之下运行。

我们对 HeavySkill 在多个领域进行了系统性的实证研究。结果表明，这种内部 skill 持续优于传统的 Best-of-N（BoN）策略；值得注意的是，更强的 LLMs 甚至可以接近 Pass@N 性能。更关键的是，我们证明，作为一种可学习的 skill，heavy thinking 的深度和宽度可以通过 reinforcement learning 进一步扩展。这为实现 self-evolving LLMs 提供了一条有前景的路径，使其能够内化复杂推理，而不依赖脆弱的 orchestration layers。