録实録译稿议社区 24h

词术语频次

历封存归档

red-teaming

▃▃█▁ · 62 次 · 收录于 30 篇

红队 · 主动寻找模型缺陷的对抗测试

Project Glasswing：初步更新研究 · Anthropic Research · 05-23
AISI的安全案例研究 · UK AISI · 05-17
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
安全评估原则研究 · UK AISI · 05-16
安全案例如何助力前沿AI安全研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
让安全评估可操作研究 · UK AISI · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
结构化引出实验协议研究 · UK AISI · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
压力测试AI编码代理的异步监控研究 · UK AISI · 05-15
边界点越狱：突破最强AI防御的新方法研究 · UK AISI · 05-15
UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
环境因素如何影响AI行为？研究 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
红队测试Anthropic内部Agent监控系统研究 · METR · 05-13
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
SocialReasoning-Bench：衡量AI智能体是否以用户最佳利益行事研究 · MS Research · 05-12
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问产品 · OpenAI · 05-08
Stable-GFlowNet：通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试 HF Papers · 05-05
Claude Opus 4.7 介绍 Anthropic · 05-03
GPT-5.5 系统卡产品 · OpenAI · 05-03
对agent网络进行红队测试：理解AI agent大规模交互时会出什么问题 MS Research · 05-03
FlashRT：面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
GPT-5.5 生物 Bug Bounty OpenAI · 04-30
让 ChatGPT 更好服务临床医生 OpenAI · 04-30
我们对社区安全的承诺 OpenAI · 04-30