词
历red-teaming
红队 · 主动寻找模型缺陷的对抗测试
- Project Glasswing:初步更新
- AISI的安全案例
- 评估前沿AI系统的早期经验
- Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估
- 我们的第一年
- 安全评估原则
- 安全案例如何助力前沿AI安全
- 如何评估AI agent的控制措施?
- 让安全评估可操作
- AI将如何助长未来犯罪?
- 结构化引出实验协议
- 管理日益强大的开放权重AI系统的风险
- 压力测试AI编码代理的异步监控
- 边界点越狱:突破最强AI防御的新方法
- UKAISI 亮相 NeurIPS 2025
- 环境因素如何影响AI行为?
- 我们对OpenAI GPT-5.5网络能力的评估
- 红队测试Anthropic内部Agent监控系统
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事
- rohitg00/从零开始的 AI 工程
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试
- Claude Opus 4.7 介绍
- GPT-5.5 系统卡
- 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题
- FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming
- GPT-5.5 生物 Bug Bounty
- 让 ChatGPT 更好服务临床医生
- 我们对社区安全的承诺