録实録译稿议社区 24h

词术语频次

历封存归档

AISI

▁▁█▁ · 1582 次 · 收录于 74 篇

英国AI安全研究所负责前沿AI系统测试

Project Glasswing：初步更新研究 · Anthropic Research · 05-23
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
AISI 高级 AI 评估：五月更新评测 · UK AISI · 05-17
“无法”论证的安全案例模板研究 · UK AISI · 05-17
前沿AI问答评估开发早期洞察研究 · UK AISI · 05-17
AI系统应该像人一样行事吗？研究 · UK AISI · 05-17
前沿AI安全框架会议 UK AISI · 05-17
Geoffrey Irving：我为何加入AISI 研究 · UK AISI · 05-17
AISI的安全案例研究 · UK AISI · 05-17
第四次进展报告评测 · UK AISI · 05-17
推进系统性AI安全领域：资助开放 UK AISI · 05-16
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
长文本任务研究 · UK AISI · 05-16
OpenAI o1 模型部署前评估评测 · UK AISI · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
我们如何弥合AI能力与防护之间的差距研究 · UK AISI · 05-16
安全评估原则研究 · UK AISI · 05-16
安全案例如何助力前沿AI安全研究 · UK AISI · 05-16
AISI挑战基金新更新产品 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
增强AI韧性研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
HiBayES：用分层贝叶斯建模改进LLM评估研究 · UK AISI · 05-15
让安全评估可操作研究 · UK AISI · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
Inspect Cyber：Agentic网络评估新标准工程 · UK AISI · 05-15
国际联合测试演习：Agentic 测试评测 · UK AISI · 05-15
为何我们研究白盒控制研究 · UK AISI · 05-15
结构化引出实验协议研究 · UK AISI · 05-15
穿越未知：构建社会对前沿AI的韧性研究 · UK AISI · 05-15
Inspect 沙箱工具包：可扩展且安全的 AI agent 评估工程 · UK AISI · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
大规模后门数据投毒研究研究 · UK AISI · 05-15
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
自主AI网络能力进步有多快？评测 · UK AISI · 05-15
当前AI系统的局限性映射研究 · UK AISI · 05-15
压力测试AI编码代理的异步监控研究 · UK AISI · 05-15
聊天机器人是在告知还是误导选民？研究 · UK AISI · 05-15
我们如何与前沿AI开发者合作提升模型安全性产品 · UK AISI · 05-15
审计游戏以检测沙袋行为研究 · UK AISI · 05-15
边界点越狱：突破最强AI防御的新方法研究 · UK AISI · 05-15
AI agent评估的转录分析评测 · UK AISI · 05-15
UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
Introducing ControlArena：用于运行AI控制实验的库工程 · UK AISI · 05-15
深化与Google DeepMind的合作关系研究 · UK AISI · 05-14
AI模型如何说服？通过大规模实验探索AI说服的杠杆研究 · UK AISI · 05-14
研究不对齐模型研究 · UK AISI · 05-14
AI与工作的未来：衡量AI驱动的工作任务生产力提升研究 · UK AISI · 05-14
AI Agent 如何使用？来自 17.7 万 AI Agent 工具的证据研究 · UK AISI · 05-14
我们的2025年度回顾评测 · UK AISI · 05-14
我们应对AI生成儿童性虐待材料的方法 UK AISI · 05-14
AI评估中的国际共识与开放问题研究 · UK AISI · 05-14
使用Inspect Scout进行转录分析的工作流工程 · UK AISI · 05-14
用ElevenLabs推进AI语音安全研究 · UK AISI · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI在欺诈与网络犯罪中滥用的评估框架研究 · UK AISI · 05-14
AI agent 能逃出沙箱吗？容器逃逸能力安全基准测试研究 · UK AISI · 05-14
前沿AI智能体在多步网络攻击场景中表现如何？评测 · UK AISI · 05-14
AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率研究 · UK AISI · 05-14
利用前沿AI进行网络防御工程 · UK AISI · 05-13
我们对Claude Mythos Preview网络能力的评估评测 · UK AISI · 05-13
沙盒AI智能体能从评估环境中学到什么？研究 · UK AISI · 05-13
问而不告：减少大语言模型中的谄媚行为研究 · UK AISI · 05-13
环境因素如何影响AI行为？研究 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
与微软合作加强前沿AI安全产品 · UK AISI · 05-13
评估AI模型是否会破坏AI安全研究评测 · UK AISI · 05-13
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
捐赠我们的开源对齐工具工程 · Anthropic Research · 05-08
我们对 OpenAI GPT-5.5 网络安全能力的评估 Simon Willison · 05-03
人们如何向 Claude 寻求个人指导 Anthropic Research · 05-01