AISI
▁▁█▁
·
1582 次
·
收录于 74 篇
英国AI安全研究所负责前沿AI系统测试
-
Project Glasswing:初步更新
研究 · Anthropic Research · 05-23
-
AI系统监管会变得更难吗?
研究 · UK AISI · 05-22
-
AISI 高级 AI 评估:五月更新
评测 · UK AISI · 05-17
-
“无法”论证的安全案例模板
研究 · UK AISI · 05-17
-
前沿AI问答评估开发早期洞察
研究 · UK AISI · 05-17
-
AI系统应该像人一样行事吗?
研究 · UK AISI · 05-17
-
前沿AI安全框架会议
UK AISI · 05-17
-
Geoffrey Irving:我为何加入AISI
研究 · UK AISI · 05-17
-
AISI的安全案例
研究 · UK AISI · 05-17
-
第四次进展报告
评测 · UK AISI · 05-17
-
推进系统性AI安全领域:资助开放
UK AISI · 05-16
-
评估前沿AI系统的早期经验
评测 · UK AISI · 05-16
-
新型评估与Agent脚手架赏金计划
研究 · UK AISI · 05-16
-
长文本任务
研究 · UK AISI · 05-16
-
OpenAI o1 模型部署前评估
评测 · UK AISI · 05-16
-
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估
评测 · UK AISI · 05-16
-
发布 Inspect Evals
工程 · UK AISI · 05-16
-
我们的第一年
评测 · UK AISI · 05-16
-
我们如何弥合AI能力与防护之间的差距
研究 · UK AISI · 05-16
-
安全评估原则
研究 · UK AISI · 05-16
-
安全案例如何助力前沿AI安全
研究 · UK AISI · 05-16
-
AISI挑战基金新更新
产品 · UK AISI · 05-16
-
RepliBench:衡量AI系统中的自主复制能力
研究 · UK AISI · 05-16
-
增强AI韧性
研究 · UK AISI · 05-16
-
如何评估AI agent的控制措施?
研究 · UK AISI · 05-16
-
HiBayES:用分层贝叶斯建模改进LLM评估
研究 · UK AISI · 05-15
-
让安全评估可操作
研究 · UK AISI · 05-15
-
AI将如何助长未来犯罪?
研究 · UK AISI · 05-15
-
Inspect Cyber:Agentic网络评估新标准
工程 · UK AISI · 05-15
-
国际联合测试演习:Agentic 测试
评测 · UK AISI · 05-15
-
为何我们研究白盒控制
研究 · UK AISI · 05-15
-
结构化引出实验协议
研究 · UK AISI · 05-15
-
穿越未知:构建社会对前沿AI的韧性
研究 · UK AISI · 05-15
-
Inspect 沙箱工具包:可扩展且安全的 AI agent 评估
工程 · UK AISI · 05-15
-
管理日益强大的开放权重AI系统的风险
研究 · UK AISI · 05-15
-
大规模后门数据投毒研究
研究 · UK AISI · 05-15
-
Frontier AI趋势报告首期5项关键发现
评测 · UK AISI · 05-15
-
自主AI网络能力进步有多快?
评测 · UK AISI · 05-15
-
当前AI系统的局限性映射
研究 · UK AISI · 05-15
-
压力测试AI编码代理的异步监控
研究 · UK AISI · 05-15
-
聊天机器人是在告知还是误导选民?
研究 · UK AISI · 05-15
-
我们如何与前沿AI开发者合作提升模型安全性
产品 · UK AISI · 05-15
-
审计游戏以检测沙袋行为
研究 · UK AISI · 05-15
-
边界点越狱:突破最强AI防御的新方法
研究 · UK AISI · 05-15
-
AI agent评估的转录分析
评测 · UK AISI · 05-15
-
UKAISI 亮相 NeurIPS 2025
研究 · UK AISI · 05-15
-
Introducing ControlArena:用于运行AI控制实验的库
工程 · UK AISI · 05-15
-
深化与Google DeepMind的合作关系
研究 · UK AISI · 05-14
-
AI模型如何说服?通过大规模实验探索AI说服的杠杆
研究 · UK AISI · 05-14
-
研究不对齐模型
研究 · UK AISI · 05-14
-
AI与工作的未来:衡量AI驱动的工作任务生产力提升
研究 · UK AISI · 05-14
-
AI Agent 如何使用?来自 17.7 万 AI Agent 工具的证据
研究 · UK AISI · 05-14
-
我们的2025年度回顾
评测 · UK AISI · 05-14
-
我们应对AI生成儿童性虐待材料的方法
UK AISI · 05-14
-
AI评估中的国际共识与开放问题
研究 · UK AISI · 05-14
-
使用Inspect Scout进行转录分析的工作流
工程 · UK AISI · 05-14
-
用ElevenLabs推进AI语音安全
研究 · UK AISI · 05-14
-
资助60个项目推进AI对齐研究
研究 · UK AISI · 05-14
-
AI在欺诈与网络犯罪中滥用的评估框架
研究 · UK AISI · 05-14
-
AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试
研究 · UK AISI · 05-14
-
前沿AI智能体在多步网络攻击场景中表现如何?
评测 · UK AISI · 05-14
-
AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
研究 · UK AISI · 05-14
-
利用前沿AI进行网络防御
工程 · UK AISI · 05-13
-
我们对Claude Mythos Preview网络能力的评估
评测 · UK AISI · 05-13
-
沙盒AI智能体能从评估环境中学到什么?
研究 · UK AISI · 05-13
-
问而不告:减少大语言模型中的谄媚行为
研究 · UK AISI · 05-13
-
环境因素如何影响AI行为?
研究 · UK AISI · 05-13
-
我们对OpenAI GPT-5.5网络能力的评估
评测 · UK AISI · 05-13
-
与微软合作加强前沿AI安全
产品 · UK AISI · 05-13
-
评估AI模型是否会破坏AI安全研究
评测 · UK AISI · 05-13
-
Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
研究 · Import AI · 05-12
-
捐赠我们的开源对齐工具
工程 · Anthropic Research · 05-08
-
我们对 OpenAI GPT-5.5 网络安全能力的评估
Simon Willison · 05-03
-
人们如何向 Claude 寻求个人指导
Anthropic Research · 05-01