实録译稿 社区 24h

术语频次

封存归档

AISI

▁▁█▁ · 1582 次 · 收录于 74 篇

英国AI安全研究所负责前沿AI系统测试

  1. Project Glasswing:初步更新 研究 · Anthropic Research · 05-23
  2. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  3. AISI 高级 AI 评估:五月更新 评测 · UK AISI · 05-17
  4. “无法”论证的安全案例模板 研究 · UK AISI · 05-17
  5. 前沿AI问答评估开发早期洞察 研究 · UK AISI · 05-17
  6. AI系统应该像人一样行事吗? 研究 · UK AISI · 05-17
  7. 前沿AI安全框架会议 UK AISI · 05-17
  8. Geoffrey Irving:我为何加入AISI 研究 · UK AISI · 05-17
  9. AISI的安全案例 研究 · UK AISI · 05-17
  10. 第四次进展报告 评测 · UK AISI · 05-17
  11. 推进系统性AI安全领域:资助开放 UK AISI · 05-16
  12. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  13. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  14. 长文本任务 研究 · UK AISI · 05-16
  15. OpenAI o1 模型部署前评估 评测 · UK AISI · 05-16
  16. Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估 评测 · UK AISI · 05-16
  17. 发布 Inspect Evals 工程 · UK AISI · 05-16
  18. 我们的第一年 评测 · UK AISI · 05-16
  19. 我们如何弥合AI能力与防护之间的差距 研究 · UK AISI · 05-16
  20. 安全评估原则 研究 · UK AISI · 05-16
  21. 安全案例如何助力前沿AI安全 研究 · UK AISI · 05-16
  22. AISI挑战基金新更新 产品 · UK AISI · 05-16
  23. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  24. 增强AI韧性 研究 · UK AISI · 05-16
  25. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  26. HiBayES:用分层贝叶斯建模改进LLM评估 研究 · UK AISI · 05-15
  27. 让安全评估可操作 研究 · UK AISI · 05-15
  28. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  29. Inspect Cyber:Agentic网络评估新标准 工程 · UK AISI · 05-15
  30. 国际联合测试演习:Agentic 测试 评测 · UK AISI · 05-15
  31. 为何我们研究白盒控制 研究 · UK AISI · 05-15
  32. 结构化引出实验协议 研究 · UK AISI · 05-15
  33. 穿越未知:构建社会对前沿AI的韧性 研究 · UK AISI · 05-15
  34. Inspect 沙箱工具包:可扩展且安全的 AI agent 评估 工程 · UK AISI · 05-15
  35. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  36. 大规模后门数据投毒研究 研究 · UK AISI · 05-15
  37. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  38. 自主AI网络能力进步有多快? 评测 · UK AISI · 05-15
  39. 当前AI系统的局限性映射 研究 · UK AISI · 05-15
  40. 压力测试AI编码代理的异步监控 研究 · UK AISI · 05-15
  41. 聊天机器人是在告知还是误导选民? 研究 · UK AISI · 05-15
  42. 我们如何与前沿AI开发者合作提升模型安全性 产品 · UK AISI · 05-15
  43. 审计游戏以检测沙袋行为 研究 · UK AISI · 05-15
  44. 边界点越狱:突破最强AI防御的新方法 研究 · UK AISI · 05-15
  45. AI agent评估的转录分析 评测 · UK AISI · 05-15
  46. UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
  47. Introducing ControlArena:用于运行AI控制实验的库 工程 · UK AISI · 05-15
  48. 深化与Google DeepMind的合作关系 研究 · UK AISI · 05-14
  49. AI模型如何说服?通过大规模实验探索AI说服的杠杆 研究 · UK AISI · 05-14
  50. 研究不对齐模型 研究 · UK AISI · 05-14
  51. AI与工作的未来:衡量AI驱动的工作任务生产力提升 研究 · UK AISI · 05-14
  52. AI Agent 如何使用?来自 17.7 万 AI Agent 工具的证据 研究 · UK AISI · 05-14
  53. 我们的2025年度回顾 评测 · UK AISI · 05-14
  54. 我们应对AI生成儿童性虐待材料的方法 UK AISI · 05-14
  55. AI评估中的国际共识与开放问题 研究 · UK AISI · 05-14
  56. 使用Inspect Scout进行转录分析的工作流 工程 · UK AISI · 05-14
  57. 用ElevenLabs推进AI语音安全 研究 · UK AISI · 05-14
  58. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  59. AI在欺诈与网络犯罪中滥用的评估框架 研究 · UK AISI · 05-14
  60. AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试 研究 · UK AISI · 05-14
  61. 前沿AI智能体在多步网络攻击场景中表现如何? 评测 · UK AISI · 05-14
  62. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  63. 利用前沿AI进行网络防御 工程 · UK AISI · 05-13
  64. 我们对Claude Mythos Preview网络能力的评估 评测 · UK AISI · 05-13
  65. 沙盒AI智能体能从评估环境中学到什么? 研究 · UK AISI · 05-13
  66. 问而不告:减少大语言模型中的谄媚行为 研究 · UK AISI · 05-13
  67. 环境因素如何影响AI行为? 研究 · UK AISI · 05-13
  68. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  69. 与微软合作加强前沿AI安全 产品 · UK AISI · 05-13
  70. 评估AI模型是否会破坏AI安全研究 评测 · UK AISI · 05-13
  71. Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机 研究 · Import AI · 05-12
  72. 捐赠我们的开源对齐工具 工程 · Anthropic Research · 05-08
  73. 我们对 OpenAI GPT-5.5 网络安全能力的评估 Simon Willison · 05-03
  74. 人们如何向 Claude 寻求个人指导 Anthropic Research · 05-01