AgentDoG 1.5：轻量可扩展的AI Agent安全对齐框架

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu 等 50 位

来自 shanghai ailab

二〇二六年五月二十九日 · arXiv:2605.29801 · PDF

摘要

现代开放世界智能体（如 OpenClaw）展现出强大的跨环境执行能力，但也引入了广泛的新型安全风险源。与此同时，前沿 AI 模型的进步大幅降低了攻击门槛，使得当前的智能体对齐框架难以满足实际部署需求。为应对这些新兴威胁，我们提出了一种轻量级且可扩展的智能体安全对齐框架。具体而言，我们更新了智能体安全分类体系，以涵盖来自 Codex 和 OpenClaw 执行场景的新兴风险。进一步地，我们构建了一个基于分类体系的数据引擎，并采用影响力函数净化技术，仅使用约 1000 个样本训练轻量级 AgentDoG 1.5 变体（参数量为 0.8B、2B、4B 和 8B），其性能可与领先的闭源模型（如 GPT-5.4）相媲美。基于 AgentDoG 1.5，我们搭建了高效的智能体安全 SFT 和 RL 训练环境，将 Docker 级环境的部署开销降低了两个数量级。最后，我们将 AgentDoG 1.5 部署为无需训练的在线护栏，用于实时安全审核。大量实验结果表明，AgentDoG 1.5 在多样且复杂的交互式智能体场景中达到了最先进性能。所有模型和数据集均已开源发布。

译自 Hugging Face · Daily Papers · arXiv:2605.29801 · 录于二〇二六年五月二十九日