Hugging Face · Daily Papers

AgentDoG 1.5:轻量可扩展的AI Agent安全对齐框架

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu 等 50 位
来自 shanghai ailab
二〇二六年五月二十九日 · arXiv:2605.29801 · PDF

现代开放世界智能体(如 OpenClaw)展现出强大的跨环境执行能力,但也引入了广泛的新型安全风险源。与此同时,前沿 AI 模型的进步大幅降低了攻击门槛,使得当前的智能体对齐框架难以满足实际部署需求。为应对这些新兴威胁,我们提出了一种轻量级且可扩展的智能体安全对齐框架。具体而言,我们更新了智能体安全分类体系,以涵盖来自 Codex 和 OpenClaw 执行场景的新兴风险。进一步地,我们构建了一个基于分类体系的数据引擎,并采用影响力函数净化技术,仅使用约 1000 个样本训练轻量级 AgentDoG 1.5 变体(参数量为 0.8B、2B、4B 和 8B),其性能可与领先的闭源模型(如 GPT-5.4)相媲美。基于 AgentDoG 1.5,我们搭建了高效的智能体安全 SFT 和 RL 训练环境,将 Docker 级环境的部署开销降低了两个数量级。最后,我们将 AgentDoG 1.5 部署为无需训练的在线护栏,用于实时安全审核。大量实验结果表明,AgentDoG 1.5 在多样且复杂的交互式智能体场景中达到了最先进性能。所有模型和数据集均已开源发布。

译自 Hugging Face · Daily Papers · arXiv:2605.29801 · 录于 二〇二六年五月二十九日