Hugging Face · Daily Papers
HeavySkill:将 Heavy Thinking 作为 Agentic Harness 的内在技能
HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness
来自 LongCat
摘要
近期,agentic harness(智能体执行框架)方面的进展显著提升了复杂推理任务的表现。这类 orchestration framework(编排框架)能够协调多个具备 memory、skills 和 tool use 能力的 agents。然而,真正驱动性能提升的底层机制,仍被复杂的系统设计所遮蔽。
本文提出 HeavySkill 这一视角:heavy thinking 不仅是 orchestration harness 中的最小执行单元,也是一种内化于模型参数中的内部 skill,能够驱动 orchestrator 解决复杂任务。我们将这种 skill 识别为一个两阶段 pipeline,即先进行 parallel reasoning,再进行 summarization;该 pipeline 可以在任何 agentic harness 之下运行。
我们对 HeavySkill 在多个领域进行了系统性的实证研究。结果表明,这种内部 skill 持续优于传统的 Best-of-N(BoN)策略;值得注意的是,更强的 LLMs 甚至可以接近 Pass@N 性能。更关键的是,我们证明,作为一种可学习的 skill,heavy thinking 的深度和宽度可以通过 reinforcement learning 进一步扩展。这为实现 self-evolving LLMs 提供了一条有前景的路径,使其能够内化复杂推理,而不依赖脆弱的 orchestration layers。