实録译稿 社区 24h

术语频次

封存归档

frontier model

▃▃█▂ · 125 次 · 收录于 64 篇

前沿模型 · 最大规模 / 最新发布的少数模型

  1. Project Glasswing:初步更新 研究 · Anthropic Research · 05-23
  2. Qwen 3.7-Max 在 agent 任务中以更低成本击败 Opus 4.7 和 GPT-5.5 评测 · X Trending · 05-23
  3. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  4. 为1000万文档设计零幻觉RAG管道的10个关键步骤 工程 · X Trending · 05-22
  5. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  6. 在应用计算中扩展强化学习 工程 · Modal · 05-21
  7. Google 发布 Gemini 3.5 Flash,编码与速度超越 3.1 Pro 产品 · X Trending · 05-20
  8. Gemini 3.5:具备行动能力的前沿智能 产品 · DeepMind · 05-20
  9. 前沿AI问答评估开发早期洞察 研究 · UK AISI · 05-17
  10. AISI的安全案例 研究 · UK AISI · 05-17
  11. 第四次进展报告 评测 · UK AISI · 05-17
  12. 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。 评测 · Interconnects · 05-17
  13. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  14. 长文本任务 研究 · UK AISI · 05-16
  15. 发布 Inspect Evals 工程 · UK AISI · 05-16
  16. 我们的第一年 评测 · UK AISI · 05-16
  17. 关于AI委托与长期可靠性近期研究的进一步说明 研究 · MS Research · 05-16
  18. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  19. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  20. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  21. 自主AI网络能力进步有多快? 评测 · UK AISI · 05-15
  22. 当前AI系统的局限性映射 研究 · UK AISI · 05-15
  23. 2028:全球AI领导力的两种情景 研究 · Anthropic Research · 05-15
  24. 审计游戏以检测沙袋行为 研究 · UK AISI · 05-15
  25. Apollo 2026年5月更新 产品 · Apollo Research · 05-14
  26. 深化与Google DeepMind的合作关系 研究 · UK AISI · 05-14
  27. AI模型如何说服?通过大规模实验探索AI说服的杠杆 研究 · UK AISI · 05-14
  28. AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试 研究 · UK AISI · 05-14
  29. 前沿AI智能体在多步网络攻击场景中表现如何? 评测 · UK AISI · 05-14
  30. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  31. 我们对Claude Mythos Preview网络能力的评估 评测 · UK AISI · 05-13
  32. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  33. 开放模型生态如何持续放大优势 研究 · Interconnects · 05-13
  34. Kimi K2.6:新的领先开源权重模型 产品 · Artificial Analysis · 05-12
  35. DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列 产品 · Artificial Analysis · 05-12
  36. 中国AI实验室内部笔记 对话 · Interconnects · 05-12
  37. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  38. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  39. SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事 研究 · MS Research · 05-12
  40. xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
  41. 提出四种subagent编排模式及适用边界 工程 · X · 05-09
  42. Harness 是一切:如何优化你的 Harness 工程 · Baseten · 05-09
  43. Agent 如何管理其他 Agent:2026 年四种 Subagent 模式 工程 · Phil Schmid · 05-09
  44. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  45. CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型 产品 · HF Blog · 05-09
  46. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  47. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  48. 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络 工程 · OpenAI · 05-06
  49. AcademiClaw:当学生为 AI agent 设定挑战 HF Papers · 05-05
  50. MolmoAct2:面向现实世界部署的动作推理模型 HF Papers · 05-05
  51. [公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型,作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力 Mistral · 05-04
  52. Claude Opus 4.7 介绍 Anthropic · 05-03
  53. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  54. 介绍 GPT-5.5 OpenAI · 05-03
  55. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  56. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  57. SWE-Check:Bug 检测快 10 倍 Cognition · 05-03
  58. 用 Cursor SDK 构建程序化 agent Cursor · 05-03
  59. 追溯已失效的 OpenAI-Microsoft AGI 条款历史 Simon Willison · 05-03
  60. LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
  61. Claw-Eval-Live:面向演进中真实世界工作流的实时 Agent Benchmark HF Papers · 05-01
  62. 量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01
  63. OpenAI 模型、Codex 和 Managed Agents 登陆 AWS OpenAI · 04-30
  64. 自动化对齐研究者:使用 LLM 扩展可扩展监督 Anthropic Research · 04-30