实録译稿 社区 24h

术语频次

封存归档

safety

▂▂█▂ · 825 次 · 收录于 135 篇

安全性 · AI 不造成预期外伤害的研究方向

  1. Emmi 加入 Mistral 加速 AI 原生行业 产品 · Mistral · 05-23
  2. MagenticLite、MagenticBrain、Fara1.5:为小模型优化的智能体体验 研究 · MS Research · 05-22
  3. 谷歌DeepMind加速器项目落地亚太,应对环境风险 产品 · DeepMind · 05-22
  4. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  5. Vega:AI时代数字身份的零知识证明 研究 · MS Research · 05-22
  6. 强化新加坡AI未来:新国家伙伴关系 产品 · DeepMind · 05-20
  7. 代码即代理工具 研究 · HF Papers · 05-20
  8. Gemini 3.5:具备行动能力的前沿智能 产品 · DeepMind · 05-20
  9. 发现可对抗肝纤维化的老药新用 研究 · DeepMind · 05-20
  10. Co-Scientist:加速科研的多智能体AI伙伴 研究 · DeepMind · 05-20
  11. WeatherNext 如何帮助美国国家飓风中心更准确预测飓风梅丽莎在牙买加的历史性登陆 产品 · DeepMind · 05-20
  12. 让内容创建与编辑过程更易理解 产品 · DeepMind · 05-20
  13. 开辟衰老研究新路径 研究 · DeepMind · 05-20
  14. 整合生物工具包,探索ALS新疗法 研究 · DeepMind · 05-20
  15. 发现新型传染病背后的分子开关 研究 · DeepMind · 05-20
  16. 加速发现肝病机制 研究 · DeepMind · 05-20
  17. 用 Project Genie 和街景模拟真实世界地点 产品 · DeepMind · 05-20
  18. 快速追踪遗传线索逆转细胞衰老 研究 · DeepMind · 05-20
  19. 推进内容溯源,构建更安全透明的AI生态 产品 · OpenAI · 05-20
  20. Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐 研究 · Import AI · 05-19
  21. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  22. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  23. AISI 高级 AI 评估:五月更新 评测 · UK AISI · 05-17
  24. “无法”论证的安全案例模板 研究 · UK AISI · 05-17
  25. 前沿AI问答评估开发早期洞察 研究 · UK AISI · 05-17
  26. AI系统应该像人一样行事吗? 研究 · UK AISI · 05-17
  27. 前沿AI安全框架会议 UK AISI · 05-17
  28. Geoffrey Irving:我为何加入AISI 研究 · UK AISI · 05-17
  29. AISI的安全案例 研究 · UK AISI · 05-17
  30. 第四次进展报告 评测 · UK AISI · 05-17
  31. 推进系统性AI安全领域:资助开放 UK AISI · 05-16
  32. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  33. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  34. 长文本任务 研究 · UK AISI · 05-16
  35. OpenAI o1 模型部署前评估 评测 · UK AISI · 05-16
  36. Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估 评测 · UK AISI · 05-16
  37. 发布 Inspect Evals 工程 · UK AISI · 05-16
  38. 我们的第一年 评测 · UK AISI · 05-16
  39. 我们如何弥合AI能力与防护之间的差距 研究 · UK AISI · 05-16
  40. 安全评估原则 研究 · UK AISI · 05-16
  41. 安全案例如何助力前沿AI安全 研究 · UK AISI · 05-16
  42. LLM 裁判受审:评估自动评分器的新统计框架 研究 · UK AISI · 05-16
  43. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  44. 增强AI韧性 研究 · UK AISI · 05-16
  45. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  46. HiBayES:用分层贝叶斯建模改进LLM评估 研究 · UK AISI · 05-15
  47. 让安全评估可操作 研究 · UK AISI · 05-15
  48. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  49. 国际联合测试演习:Agentic 测试 评测 · UK AISI · 05-15
  50. 结构化引出实验协议 研究 · UK AISI · 05-15
  51. 穿越未知:构建社会对前沿AI的韧性 研究 · UK AISI · 05-15
  52. Inspect 沙箱工具包:可扩展且安全的 AI agent 评估 工程 · UK AISI · 05-15
  53. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  54. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  55. 当前AI系统的局限性映射 研究 · UK AISI · 05-15
  56. 压力测试AI编码代理的异步监控 研究 · UK AISI · 05-15
  57. 2028:全球AI领导力的两种情景 研究 · Anthropic Research · 05-15
  58. 审计游戏以检测沙袋行为 研究 · UK AISI · 05-15
  59. AI agent评估的转录分析 评测 · UK AISI · 05-15
  60. UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
  61. Introducing ControlArena:用于运行AI控制实验的库 工程 · UK AISI · 05-15
  62. 帮助ChatGPT更好识别敏感对话中的上下文 产品 · OpenAI · 05-15
  63. Apollo 2026年5月更新 产品 · Apollo Research · 05-14
  64. 深化与Google DeepMind的合作关系 研究 · UK AISI · 05-14
  65. 研究不对齐模型 研究 · UK AISI · 05-14
  66. 我们的2025年度回顾 评测 · UK AISI · 05-14
  67. 我们应对AI生成儿童性虐待材料的方法 UK AISI · 05-14
  68. AI评估中的国际共识与开放问题 研究 · UK AISI · 05-14
  69. 使用Inspect Scout进行转录分析的工作流 工程 · UK AISI · 05-14
  70. 用ElevenLabs推进AI语音安全 研究 · UK AISI · 05-14
  71. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  72. AI在欺诈与网络犯罪中滥用的评估框架 研究 · UK AISI · 05-14
  73. AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试 研究 · UK AISI · 05-14
  74. 使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用 工程 · AWS ML · 05-14
  75. 构建安全有效的沙箱,在 Windows 上启用 Codex 工程 · OpenAI · 05-14
  76. 我们在安全、科学传播与利益冲突方面的规范 研究 · Apollo Research · 05-13
  77. Apollo Research 将转型为公益公司 产品 · Apollo Research · 05-13
  78. 问而不告:减少大语言模型中的谄媚行为 研究 · UK AISI · 05-13
  79. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  80. 与微软合作加强前沿AI安全 产品 · UK AISI · 05-13
  81. 评估AI模型是否会破坏AI安全研究 评测 · UK AISI · 05-13
  82. 开发者用22,000小时在Claude Code上构建个人AI操作系统并开源 工程 · X Trending · 05-12
  83. 我对开源模型的押注,2026年中 研究 · Interconnects · 05-12
  84. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  85. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  86. Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机 研究 · Import AI · 05-12
  87. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  88. 用 Amazon Nova 多模态嵌入实现制造智能 工程 · AWS ML · 05-12
  89. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  90. RVPO:通过方差正则化实现风险敏感对齐 研究 · Apple ML · 05-09
  91. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  92. 推进 EMEA 青少年安全与福祉 产品 · OpenAI · 05-09
  93. Arthur-Ficial/apfel 工程 · GitHub · 05-08
  94. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  95. wanshuiyin/睡眠中自动 Claude Code 研究 工程 · GitHub · 05-08
  96. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  97. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  98. ChatGPT 引入 Trusted Contact 产品 · OpenAI · 05-08
  99. 通过 API 中的新模型推进语音智能 产品 · OpenAI · 05-08
  100. AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响 研究 · DeepMind · 05-08
  101. The Anthropic Institute 的重点领域 研究 · Anthropic Research · 05-07
  102. DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
  103. MedSkillAudit:面向医学研究 agent 技能的领域特定审计框架 研究 · HF Papers · 05-07
  104. HKUDS/Vibe-Trading 工程 · GitHub · 05-07
  105. ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
  106. GPT-5.5 Instant:更智能、更清晰、更个性化 OpenAI · 05-06
  107. GPT-5.5 Instant 系统卡 OpenAI · 05-06
  108. AcademiClaw:当学生为 AI agent 设定挑战 HF Papers · 05-05
  109. OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
  110. Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试 HF Papers · 05-05
  111. 用于编排的开源规范:Symphony OpenAI · 05-03
  112. Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
  113. 关于我们选举保障措施的更新 Anthropic · 05-03
  114. Claude Opus 4.7 介绍 Anthropic · 05-03
  115. 介绍 GPT-5.5 OpenAI · 05-03
  116. GPT-5.5 系统卡 产品 · OpenAI · 05-03
  117. Anthropic 悉尼办公室 Anthropic · 05-03
  118. Anthropic 的 Long-Term Benefit Trust 任命 Vas Narasimhan 加入董事会 Anthropic · 05-03
  119. Anthropic扩大与Google和Broadcom在数吉瓦级下一代算力上的合作 Anthropic · 05-03
  120. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  121. 微调后的安全漂移:来自高风险领域的证据 HF Papers · 05-02
  122. 近期三个问题的复盘 Anthropic Engineering · 05-01
  123. 用 sandboxing 让 Claude Code 更安全、更自主 Anthropic Engineering · 05-01
  124. Claude Code auto 模式:更安全地跳过权限确认 Anthropic Engineering · 05-01
  125. 人们如何向 Claude 寻求个人指导 Anthropic Research · 05-01
  126. GPT-5.5 生物 Bug Bounty OpenAI · 04-30
  127. 用 Responses API 中的 WebSockets 加速 agentic 工作流 OpenAI · 04-30
  128. 让 ChatGPT 更好服务临床医生 OpenAI · 04-30
  129. 我们对社区安全的承诺 OpenAI · 04-30
  130. 哥布林从何而来 OpenAI · 04-30
  131. 大语言模型中的情感概念及其功能 Anthropic Research · 04-30
  132. 实践中的可信 agent Anthropic Research · 04-30
  133. 澳大利亚如何使用 Claude:Anthropic Economic Index 的发现 Anthropic Research · 04-30
  134. Claude 用于创意工作 Anthropic · 04-30
  135. Anthropic 与 Amazon 扩大合作,新增算力最高达 5 吉瓦 Anthropic · 04-30