Hugging Face · Daily Papers

真实资金下链上语言模型 agent 的操作层控制

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

来自 DXRG AI Inc

二〇二六年四月三十日 · arXiv:2604.26091 · PDF

摘要

我们研究自主 language-model agent 在真实资本环境下，将用户指令转化为经过验证的工具动作时的可靠性。研究场景是 DX Terminal Pro：一次为期 21 天的部署，期间 3,505 个由用户出资的 agent 在一个有边界的 onchain 市场中交易真实 ETH。用户通过结构化控件和自然语言策略配置 vault，但只有 agent 能够选择常规买入/卖出交易。系统产生了 7.5M 次 agent 调用、约 300K 次 onchain 动作、约 $20M 交易量、超过 5,000 ETH 部署、约 70B inference token；对于符合 policy 且已提交的交易，settlement 成功率为 99.9%。

长期运行的 agent 累积了数千次连续决策；其中持续活跃的 agent 产生了 6,000+ 个 prompt-state-action 周期，由此形成了从用户指令到渲染后的 prompt、reasoning、validation、portfolio 状态与 settlement 的大规模 trace。可靠性并非仅来自 base model；它来自围绕模型的 operating layer：prompt 编译、typed controls、policy validation、execution guards、memory design，以及 trace-level observability。

上线前测试暴露了一些 text-only benchmark 很少衡量的失败模式，包括编造交易规则、因 fee 导致的停滞、numeric anchoring、cadence trading，以及误读 tokenomics。针对性的 harness 调整将编造卖出规则的比例从 57% 降至 3%，将由 fee 主导的观察比例从 32.5% 降至 10% 以下，并在受影响的测试群体中将资本部署率从 42.9% 提升至 78.0%。我们表明，管理资本的 agent 应当沿着从用户指令到 prompt、经过验证的动作以及 settlement 的完整路径进行评估。