録实録译稿议社区 24h

词术语频次

历封存归档

frontier model

▃▃█▂ · 125 次 · 收录于 64 篇

前沿模型 · 最大规模 / 最新发布的少数模型

Project Glasswing：初步更新研究 · Anthropic Research · 05-23
Qwen 3.7-Max 在 agent 任务中以更低成本击败 Opus 4.7 和 GPT-5.5 评测 · X Trending · 05-23
专业化胜过规模化：多数AI采购决策忽视的战略变量研究 · HF Blog · 05-22
为1000万文档设计零幻觉RAG管道的10个关键步骤工程 · X Trending · 05-22
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
在应用计算中扩展强化学习工程 · Modal · 05-21
Google 发布 Gemini 3.5 Flash，编码与速度超越 3.1 Pro 产品 · X Trending · 05-20
Gemini 3.5：具备行动能力的前沿智能产品 · DeepMind · 05-20
前沿AI问答评估开发早期洞察研究 · UK AISI · 05-17
AISI的安全案例研究 · UK AISI · 05-17
第四次进展报告评测 · UK AISI · 05-17
最新开放制品（#21）：开放模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。评测 · Interconnects · 05-17
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
长文本任务研究 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
关于AI委托与长期可靠性近期研究的进一步说明研究 · MS Research · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
自主AI网络能力进步有多快？评测 · UK AISI · 05-15
当前AI系统的局限性映射研究 · UK AISI · 05-15
2028：全球AI领导力的两种情景研究 · Anthropic Research · 05-15
审计游戏以检测沙袋行为研究 · UK AISI · 05-15
Apollo 2026年5月更新产品 · Apollo Research · 05-14
深化与Google DeepMind的合作关系研究 · UK AISI · 05-14
AI模型如何说服？通过大规模实验探索AI说服的杠杆研究 · UK AISI · 05-14
AI agent 能逃出沙箱吗？容器逃逸能力安全基准测试研究 · UK AISI · 05-14
前沿AI智能体在多步网络攻击场景中表现如何？评测 · UK AISI · 05-14
AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率研究 · UK AISI · 05-14
我们对Claude Mythos Preview网络能力的评估评测 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
开放模型生态如何持续放大优势研究 · Interconnects · 05-13
Kimi K2.6：新的领先开源权重模型产品 · Artificial Analysis · 05-12
DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列产品 · Artificial Analysis · 05-12
中国AI实验室内部笔记对话 · Interconnects · 05-12
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
SocialReasoning-Bench：衡量AI智能体是否以用户最佳利益行事研究 · MS Research · 05-12
xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
提出四种subagent编排模式及适用边界工程 · X · 05-09
Harness 是一切：如何优化你的 Harness 工程 · Baseten · 05-09
Agent 如何管理其他 Agent：2026 年四种 Subagent 模式工程 · Phil Schmid · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、可本地运行的模型产品 · HF Blog · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问产品 · OpenAI · 05-08
用 MRC（Multipath Reliable Connection）解锁大规模 AI 训练网络工程 · OpenAI · 05-06
AcademiClaw：当学生为 AI agent 设定挑战 HF Papers · 05-05
MolmoAct2：面向现实世界部署的动作推理模型 HF Papers · 05-05
[公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型，作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力 Mistral · 05-04
Claude Opus 4.7 介绍 Anthropic · 05-03
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
介绍 GPT-5.5 OpenAI · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
SWE-Check：Bug 检测快 10 倍 Cognition · 05-03
用 Cursor SDK 构建程序化 agent Cursor · 05-03
追溯已失效的 OpenAI-Microsoft AGI 条款历史 Simon Willison · 05-03
LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
Claw-Eval-Live：面向演进中真实世界工作流的实时 Agent Benchmark HF Papers · 05-01
量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01
OpenAI 模型、Codex 和 Managed Agents 登陆 AWS OpenAI · 04-30
自动化对齐研究者：使用 LLM 扩展可扩展监督 Anthropic Research · 04-30