词
历frontier model
前沿模型 · 最大规模 / 最新发布的少数模型
- Project Glasswing:初步更新
- Qwen 3.7-Max 在 agent 任务中以更低成本击败 Opus 4.7 和 GPT-5.5
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- 为1000万文档设计零幻觉RAG管道的10个关键步骤
- AI系统监管会变得更难吗?
- 在应用计算中扩展强化学习
- Google 发布 Gemini 3.5 Flash,编码与速度超越 3.1 Pro
- Gemini 3.5:具备行动能力的前沿智能
- 前沿AI问答评估开发早期洞察
- AISI的安全案例
- 第四次进展报告
- 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。
- 新型评估与Agent脚手架赏金计划
- 长文本任务
- 发布 Inspect Evals
- 我们的第一年
- 关于AI委托与长期可靠性近期研究的进一步说明
- RepliBench:衡量AI系统中的自主复制能力
- 如何评估AI agent的控制措施?
- Frontier AI趋势报告首期5项关键发现
- 自主AI网络能力进步有多快?
- 当前AI系统的局限性映射
- 2028:全球AI领导力的两种情景
- 审计游戏以检测沙袋行为
- Apollo 2026年5月更新
- 深化与Google DeepMind的合作关系
- AI模型如何说服?通过大规模实验探索AI说服的杠杆
- AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试
- 前沿AI智能体在多步网络攻击场景中表现如何?
- AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
- 我们对Claude Mythos Preview网络能力的评估
- 我们对OpenAI GPT-5.5网络能力的评估
- 开放模型生态如何持续放大优势
- Kimi K2.6:新的领先开源权重模型
- DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列
- 中国AI实验室内部笔记
- Import AI 455:AI系统即将开始自我构建
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事
- xAI将Colossus 1租给Anthropic做inference
- 提出四种subagent编排模式及适用边界
- Harness 是一切:如何优化你的 Harness
- Agent 如何管理其他 Agent:2026 年四种 Subagent 模式
- 教 Claude 理解为什么
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- rohitg00/从零开始的 AI 工程
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络
- AcademiClaw:当学生为 AI agent 设定挑战
- MolmoAct2:面向现实世界部署的动作推理模型
- [公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型,作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力
- Claude Opus 4.7 介绍
- 揭秘 AI agents 的 evals
- 介绍 GPT-5.5
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- SWE-Check:Bug 检测快 10 倍
- 用 Cursor SDK 构建程序化 agent
- 追溯已失效的 OpenAI-Microsoft AGI 条款历史
- LLM 0.32a0 是一次重大的向后兼容重构
- Claw-Eval-Live:面向演进中真实世界工作流的实时 Agent Benchmark
- 量化 agentic 编码评测中的基础设施噪声
- OpenAI 模型、Codex 和 Managed Agents 登陆 AWS
- 自动化对齐研究者:使用 LLM 扩展可扩展监督