词
历safety
安全性 · AI 不造成预期外伤害的研究方向
- Emmi 加入 Mistral 加速 AI 原生行业
- MagenticLite、MagenticBrain、Fara1.5:为小模型优化的智能体体验
- 谷歌DeepMind加速器项目落地亚太,应对环境风险
- AI系统监管会变得更难吗?
- Vega:AI时代数字身份的零知识证明
- 强化新加坡AI未来:新国家伙伴关系
- 代码即代理工具
- Gemini 3.5:具备行动能力的前沿智能
- 发现可对抗肝纤维化的老药新用
- Co-Scientist:加速科研的多智能体AI伙伴
- WeatherNext 如何帮助美国国家飓风中心更准确预测飓风梅丽莎在牙买加的历史性登陆
- 让内容创建与编辑过程更易理解
- 开辟衰老研究新路径
- 整合生物工具包,探索ALS新疗法
- 发现新型传染病背后的分子开关
- 加速发现肝病机制
- 用 Project Genie 和街景模拟真实世界地点
- 快速追踪遗传线索逆转细胞衰老
- 推进内容溯源,构建更安全透明的AI生态
- Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐
- 用 Amazon Nova 2 提示词做内容审核
- Imbad0202/学术研究技能
- AISI 高级 AI 评估:五月更新
- “无法”论证的安全案例模板
- 前沿AI问答评估开发早期洞察
- AI系统应该像人一样行事吗?
- 前沿AI安全框架会议
- Geoffrey Irving:我为何加入AISI
- AISI的安全案例
- 第四次进展报告
- 推进系统性AI安全领域:资助开放
- 评估前沿AI系统的早期经验
- 新型评估与Agent脚手架赏金计划
- 长文本任务
- OpenAI o1 模型部署前评估
- Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估
- 发布 Inspect Evals
- 我们的第一年
- 我们如何弥合AI能力与防护之间的差距
- 安全评估原则
- 安全案例如何助力前沿AI安全
- LLM 裁判受审:评估自动评分器的新统计框架
- RepliBench:衡量AI系统中的自主复制能力
- 增强AI韧性
- 如何评估AI agent的控制措施?
- HiBayES:用分层贝叶斯建模改进LLM评估
- 让安全评估可操作
- AI将如何助长未来犯罪?
- 国际联合测试演习:Agentic 测试
- 结构化引出实验协议
- 穿越未知:构建社会对前沿AI的韧性
- Inspect 沙箱工具包:可扩展且安全的 AI agent 评估
- 管理日益强大的开放权重AI系统的风险
- Frontier AI趋势报告首期5项关键发现
- 当前AI系统的局限性映射
- 压力测试AI编码代理的异步监控
- 2028:全球AI领导力的两种情景
- 审计游戏以检测沙袋行为
- AI agent评估的转录分析
- UKAISI 亮相 NeurIPS 2025
- Introducing ControlArena:用于运行AI控制实验的库
- 帮助ChatGPT更好识别敏感对话中的上下文
- Apollo 2026年5月更新
- 深化与Google DeepMind的合作关系
- 研究不对齐模型
- 我们的2025年度回顾
- 我们应对AI生成儿童性虐待材料的方法
- AI评估中的国际共识与开放问题
- 使用Inspect Scout进行转录分析的工作流
- 用ElevenLabs推进AI语音安全
- 资助60个项目推进AI对齐研究
- AI在欺诈与网络犯罪中滥用的评估框架
- AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试
- 使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用
- 构建安全有效的沙箱,在 Windows 上启用 Codex
- 我们在安全、科学传播与利益冲突方面的规范
- Apollo Research 将转型为公益公司
- 问而不告:减少大语言模型中的谄媚行为
- 我们对OpenAI GPT-5.5网络能力的评估
- 与微软合作加强前沿AI安全
- 评估AI模型是否会破坏AI安全研究
- 开发者用22,000小时在Claude Code上构建个人AI操作系统并开源
- 我对开源模型的押注,2026年中
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- Import AI 455:AI系统即将开始自我构建
- Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- 用 Amazon Nova 多模态嵌入实现制造智能
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- RVPO:通过方差正则化实现风险敏感对齐
- 教 Claude 理解为什么
- 推进 EMEA 青少年安全与福祉
- Arthur-Ficial/apfel
- rohitg00/从零开始的 AI 工程
- wanshuiyin/睡眠中自动 Claude Code 研究
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- 自然语言 Autoencoders
- ChatGPT 引入 Trusted Contact
- 通过 API 中的新模型推进语音智能
- AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响
- The Anthropic Institute 的重点领域
- DreamDojo 开源基于人类视频的机器人 world model
- MedSkillAudit:面向医学研究 agent 技能的领域特定审计框架
- HKUDS/Vibe-Trading
- ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark
- GPT-5.5 Instant:更智能、更清晰、更个性化
- GPT-5.5 Instant 系统卡
- AcademiClaw:当学生为 AI agent 设定挑战
- OpenAI 如何大规模交付低延迟语音 AI
- Stable-GFlowNet:通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试
- 用于编排的开源规范:Symphony
- Claude Code 最佳实践 - Claude Code 文档
- 关于我们选举保障措施的更新
- Claude Opus 4.7 介绍
- 介绍 GPT-5.5
- GPT-5.5 系统卡
- Anthropic 悉尼办公室
- Anthropic 的 Long-Term Benefit Trust 任命 Vas Narasimhan 加入董事会
- Anthropic扩大与Google和Broadcom在数吉瓦级下一代算力上的合作
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- 微调后的安全漂移:来自高风险领域的证据
- 近期三个问题的复盘
- 用 sandboxing 让 Claude Code 更安全、更自主
- Claude Code auto 模式:更安全地跳过权限确认
- 人们如何向 Claude 寻求个人指导
- GPT-5.5 生物 Bug Bounty
- 用 Responses API 中的 WebSockets 加速 agentic 工作流
- 让 ChatGPT 更好服务临床医生
- 我们对社区安全的承诺
- 哥布林从何而来
- 大语言模型中的情感概念及其功能
- 实践中的可信 agent
- 澳大利亚如何使用 Claude:Anthropic Economic Index 的发现
- Claude 用于创意工作
- Anthropic 与 Amazon 扩大合作,新增算力最高达 5 吉瓦