録实録译稿议社区 24h

词术语频次

历封存归档

safety

▂▂█▂ · 825 次 · 收录于 135 篇

安全性 · AI 不造成预期外伤害的研究方向

Emmi 加入 Mistral 加速 AI 原生行业产品 · Mistral · 05-23
MagenticLite、MagenticBrain、Fara1.5：为小模型优化的智能体体验研究 · MS Research · 05-22
谷歌DeepMind加速器项目落地亚太，应对环境风险产品 · DeepMind · 05-22
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
Vega：AI时代数字身份的零知识证明研究 · MS Research · 05-22
强化新加坡AI未来：新国家伙伴关系产品 · DeepMind · 05-20
代码即代理工具研究 · HF Papers · 05-20
Gemini 3.5：具备行动能力的前沿智能产品 · DeepMind · 05-20
发现可对抗肝纤维化的老药新用研究 · DeepMind · 05-20
Co-Scientist：加速科研的多智能体AI伙伴研究 · DeepMind · 05-20
WeatherNext 如何帮助美国国家飓风中心更准确预测飓风梅丽莎在牙买加的历史性登陆产品 · DeepMind · 05-20
让内容创建与编辑过程更易理解产品 · DeepMind · 05-20
开辟衰老研究新路径研究 · DeepMind · 05-20
整合生物工具包，探索ALS新疗法研究 · DeepMind · 05-20
发现新型传染病背后的分子开关研究 · DeepMind · 05-20
加速发现肝病机制研究 · DeepMind · 05-20
用 Project Genie 和街景模拟真实世界地点产品 · DeepMind · 05-20
快速追踪遗传线索逆转细胞衰老研究 · DeepMind · 05-20
推进内容溯源，构建更安全透明的AI生态产品 · OpenAI · 05-20
Import AI 457：AI 震网；诅咒的 Muon 优化器；与正向对齐研究 · Import AI · 05-19
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
Imbad0202/学术研究技能工程 · GitHub · 05-18
AISI 高级 AI 评估：五月更新评测 · UK AISI · 05-17
“无法”论证的安全案例模板研究 · UK AISI · 05-17
前沿AI问答评估开发早期洞察研究 · UK AISI · 05-17
AI系统应该像人一样行事吗？研究 · UK AISI · 05-17
前沿AI安全框架会议 UK AISI · 05-17
Geoffrey Irving：我为何加入AISI 研究 · UK AISI · 05-17
AISI的安全案例研究 · UK AISI · 05-17
第四次进展报告评测 · UK AISI · 05-17
推进系统性AI安全领域：资助开放 UK AISI · 05-16
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
长文本任务研究 · UK AISI · 05-16
OpenAI o1 模型部署前评估评测 · UK AISI · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
我们如何弥合AI能力与防护之间的差距研究 · UK AISI · 05-16
安全评估原则研究 · UK AISI · 05-16
安全案例如何助力前沿AI安全研究 · UK AISI · 05-16
LLM 裁判受审：评估自动评分器的新统计框架研究 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
增强AI韧性研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
HiBayES：用分层贝叶斯建模改进LLM评估研究 · UK AISI · 05-15
让安全评估可操作研究 · UK AISI · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
国际联合测试演习：Agentic 测试评测 · UK AISI · 05-15
结构化引出实验协议研究 · UK AISI · 05-15
穿越未知：构建社会对前沿AI的韧性研究 · UK AISI · 05-15
Inspect 沙箱工具包：可扩展且安全的 AI agent 评估工程 · UK AISI · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
当前AI系统的局限性映射研究 · UK AISI · 05-15
压力测试AI编码代理的异步监控研究 · UK AISI · 05-15
2028：全球AI领导力的两种情景研究 · Anthropic Research · 05-15
审计游戏以检测沙袋行为研究 · UK AISI · 05-15
AI agent评估的转录分析评测 · UK AISI · 05-15
UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
Introducing ControlArena：用于运行AI控制实验的库工程 · UK AISI · 05-15
帮助ChatGPT更好识别敏感对话中的上下文产品 · OpenAI · 05-15
Apollo 2026年5月更新产品 · Apollo Research · 05-14
深化与Google DeepMind的合作关系研究 · UK AISI · 05-14
研究不对齐模型研究 · UK AISI · 05-14
我们的2025年度回顾评测 · UK AISI · 05-14
我们应对AI生成儿童性虐待材料的方法 UK AISI · 05-14
AI评估中的国际共识与开放问题研究 · UK AISI · 05-14
使用Inspect Scout进行转录分析的工作流工程 · UK AISI · 05-14
用ElevenLabs推进AI语音安全研究 · UK AISI · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI在欺诈与网络犯罪中滥用的评估框架研究 · UK AISI · 05-14
AI agent 能逃出沙箱吗？容器逃逸能力安全基准测试研究 · UK AISI · 05-14
使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用工程 · AWS ML · 05-14
构建安全有效的沙箱，在 Windows 上启用 Codex 工程 · OpenAI · 05-14
我们在安全、科学传播与利益冲突方面的规范研究 · Apollo Research · 05-13
Apollo Research 将转型为公益公司产品 · Apollo Research · 05-13
问而不告：减少大语言模型中的谄媚行为研究 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
与微软合作加强前沿AI安全产品 · UK AISI · 05-13
评估AI模型是否会破坏AI安全研究评测 · UK AISI · 05-13
开发者用22,000小时在Claude Code上构建个人AI操作系统并开源工程 · X Trending · 05-12
我对开源模型的押注，2026年中研究 · Interconnects · 05-12
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
用 Amazon Nova 多模态嵌入实现制造智能工程 · AWS ML · 05-12
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
RVPO：通过方差正则化实现风险敏感对齐研究 · Apple ML · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
推进 EMEA 青少年安全与福祉产品 · OpenAI · 05-09
Arthur-Ficial/apfel 工程 · GitHub · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
wanshuiyin/睡眠中自动 Claude Code 研究工程 · GitHub · 05-08
用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问产品 · OpenAI · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
ChatGPT 引入 Trusted Contact 产品 · OpenAI · 05-08
通过 API 中的新模型推进语音智能产品 · OpenAI · 05-08
AlphaEvolve：我们的 Gemini 驱动 coding agent 如何在各领域扩大影响研究 · DeepMind · 05-08
The Anthropic Institute 的重点领域研究 · Anthropic Research · 05-07
DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
MedSkillAudit：面向医学研究 agent 技能的领域特定审计框架研究 · HF Papers · 05-07
HKUDS/Vibe-Trading 工程 · GitHub · 05-07
ESARBench：用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
GPT-5.5 Instant：更智能、更清晰、更个性化 OpenAI · 05-06
GPT-5.5 Instant 系统卡 OpenAI · 05-06
AcademiClaw：当学生为 AI agent 设定挑战 HF Papers · 05-05
OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
Stable-GFlowNet：通过对比式轨迹平衡迈向多样且鲁棒的 LLM 红队测试 HF Papers · 05-05
用于编排的开源规范：Symphony OpenAI · 05-03
Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
关于我们选举保障措施的更新 Anthropic · 05-03
Claude Opus 4.7 介绍 Anthropic · 05-03
介绍 GPT-5.5 OpenAI · 05-03
GPT-5.5 系统卡产品 · OpenAI · 05-03
Anthropic 悉尼办公室 Anthropic · 05-03
Anthropic 的 Long-Term Benefit Trust 任命 Vas Narasimhan 加入董事会 Anthropic · 05-03
Anthropic扩大与Google和Broadcom在数吉瓦级下一代算力上的合作 Anthropic · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
微调后的安全漂移：来自高风险领域的证据 HF Papers · 05-02
近期三个问题的复盘 Anthropic Engineering · 05-01
用 sandboxing 让 Claude Code 更安全、更自主 Anthropic Engineering · 05-01
Claude Code auto 模式：更安全地跳过权限确认 Anthropic Engineering · 05-01
人们如何向 Claude 寻求个人指导 Anthropic Research · 05-01
GPT-5.5 生物 Bug Bounty OpenAI · 04-30
用 Responses API 中的 WebSockets 加速 agentic 工作流 OpenAI · 04-30
让 ChatGPT 更好服务临床医生 OpenAI · 04-30
我们对社区安全的承诺 OpenAI · 04-30
哥布林从何而来 OpenAI · 04-30
大语言模型中的情感概念及其功能 Anthropic Research · 04-30
实践中的可信 agent Anthropic Research · 04-30
澳大利亚如何使用 Claude：Anthropic Economic Index 的发现 Anthropic Research · 04-30
Claude 用于创意工作 Anthropic · 04-30
Anthropic 与 Amazon 扩大合作，新增算力最高达 5 吉瓦 Anthropic · 04-30