实録译稿 社区 24h

术语频次

封存归档

red-teaming

▃▃█▁ · 62 次 · 收录于 30 篇

红队 · 主动寻找模型缺陷的对抗测试

  1. Project Glasswing:初步更新 研究 · Anthropic Research · 05-23
  2. AISI的安全案例 研究 · UK AISI · 05-17
  3. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  4. Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估 评测 · UK AISI · 05-16
  5. 我们的第一年 评测 · UK AISI · 05-16
  6. 安全评估原则 研究 · UK AISI · 05-16
  7. 安全案例如何助力前沿AI安全 研究 · UK AISI · 05-16
  8. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  9. 让安全评估可操作 研究 · UK AISI · 05-15
  10. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  11. 结构化引出实验协议 研究 · UK AISI · 05-15
  12. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  13. 压力测试AI编码代理的异步监控 研究 · UK AISI · 05-15
  14. 边界点越狱:突破最强AI防御的新方法 研究 · UK AISI · 05-15
  15. UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
  16. 环境因素如何影响AI行为? 研究 · UK AISI · 05-13
  17. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  18. 红队测试Anthropic内部Agent监控系统 研究 · METR · 05-13
  19. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  20. SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事 研究 · MS Research · 05-12
  21. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  22. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  23. Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试 HF Papers · 05-05
  24. Claude Opus 4.7 介绍 Anthropic · 05-03
  25. GPT-5.5 系统卡 产品 · OpenAI · 05-03
  26. 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题 MS Research · 05-03
  27. FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
  28. GPT-5.5 生物 Bug Bounty OpenAI · 04-30
  29. 让 ChatGPT 更好服务临床医生 OpenAI · 04-30
  30. 我们对社区安全的承诺 OpenAI · 04-30