五分钟看懂LLM过去六个月

The last six months in LLMs in five minutes

二〇二六年五月十九日 · 英文原文

摘要

在 PyCon US 2026 的五分钟闪电演讲中，作者总结了 2025 年 11 月至 2026 年 4 月 LLM 的发展。11 月成为转折点，最佳模型在 Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max 和 Claude Opus 4.5 间易手五次，编程 agent（如 Codex、Claude Code）从“偶尔能用”跨越至“基本能用”。12 月至 1 月，社区利用假期尝试新模型，作者用 vibe-coding 实现了 Python 版 JavaScript 解释器 micro-javascript（基于 Pyodide 和 WebAssembly）。2 月，开源项目 OpenClaw（个人 AI 助手，即 Claw）获得大量关注，Mac Mini 因运行 Claw 在硅谷售罄。2 月 Gemini 3.1 Pro 发布，Google 的 Jeff Dean 展示了动画鹈鹕。过去一个月，Google 发布开放权重模型 Gemma 4，中国 GLM 发布 1.5TB 的 GLM-5.1，Qwen 的 Qwen3.6-35B-A3B（20.9GB）可在笔记本运行，其绘制的鹈鹕质量超过 Claude Opus 4.7。

我整理了这些带注释的幻灯片，来自我在 PyCon US 2026 上的五分钟闪电演讲，使用的是我最新迭代的带注释演示工具。

我在 PyCon US 2026 上做了这场闪电演讲，试图在五分钟内总结过去六个月 LLM 的发展。

六个月是一个相当方便覆盖的时间段，因为它涵盖了我称之为 2025 年 11 月转折点的时期。11 月是 LLM 的关键月份，尤其是在编程方面。

首先，所谓的"最佳"模型（主要取决于感觉）在三大提供商之间易手了五次。

和往常一样，我使用我的"生成一只骑自行车的鹈鹕的 SVG"测试来帮助说明模型之间的差异。为什么用这个测试？因为鹈鹕很难画，自行车很难画，鹈鹕不会骑自行车……而且任何 AI 实验室都不可能为这样一个荒谬的任务训练模型。

11 月初，被广泛认可的"最佳"模型是 9 月 29 日发布的 Claude Sonnet 4.5。它给我画了这只鹈鹕。11 月，它被 GPT-5.1 超越，然后是 Gemini 3，然后是 GPT-5.1 Codex Max，然后 Anthropic 凭借 Claude Opus 4.5 重新夺回桂冠。我认为 Gemini 3 在这批模型中画出了最好的鹈鹕，但鹈鹕不是一切。大多数从业者都同意，在接下来的几个月里，Opus 4.5 一直保持着领先地位。

过了一段时间才变得清晰，但 11 月的真正新闻是编程 agent 变得好用了。OpenAI 和 Anthropic 在 2025 年的大部分时间里都在运行基于可验证奖励的强化学习，以提高其模型编写代码的质量，尤其是在与它们的 Codex 和 Claude Code agent 框架配合使用时。11 月，这项工作的成果变得显而易见。编程 agent 从"偶尔能用"变成了"基本能用"，跨越了一个质量门槛，你可以将它们作为日常工具来完成实际工作，而无需花大部分时间来修复它们愚蠢的错误。

同样在 11 月，发生了这件事——一个叫 Pete 的人对一个当时还很冷门的仓库"Warelay"进行了第一次提交。

在假期期间，从 12 月到 1 月，我们很多人都利用休息时间尝试了这些新模型和编程 agent，看看它们能做什么。它们能做很多事情！我们中的一些人有点过于兴奋了。我自己也短暂地经历了一种 LLM 精神错乱，开始启动雄心勃勃的项目，看看能把它们推到多远。

n * 2); console.log('Doubled: "', doubled); var evens = numbers.filter(n => n % 2 === 0); console.log('Evens: ', evens); var sum = numbers.reduce((a, b) => a + b, @); console.log('Sum:", sum); Output 27 Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] Evens: [2, 4, 6, 8, 10] Sum: 55 Execution time: 8.00ms About: micro-javascript is a pure Python JavaScript interpreter with configurable memory and time limits. This playground runs entirely in your browser using Pyodide (Python compiled to WebAssembly). View on GitHub" style="max-width: 100%" />

我的一个项目是用 Python 实现 JavaScript 的 vibe-coded 版本——一个 MicroQuickJS 的松散移植——我称之为 micro-javascript。你可以在这个 playground 中在浏览器里试试。

那个 playground 演示展示了使用我的 micro-javascript 库在 Python 中运行的 JavaScript 代码，而 Python 运行在 Pyodide 中，Pyodide 运行在 WebAssembly 中，WebAssembly 运行在 JavaScript 中，JavaScript 运行在浏览器中！这很酷！但有人需要这样一个有 bug、慢、不安全的半成品 Python 版 JavaScript 实现吗？并没有。我在那个假期期间还有不少其他项目，后来都悄悄退休了！

进入二月。还记得那个在 11 月底有第一次提交的 Warelay 项目吗？

在 12 月和 1 月，它经历了好几次改名……到了二月，它以最终名称 OpenClaw 席卷了世界。对于一个不到三个月大的项目来说，它获得的关注度相当惊人。

OpenClaw 是一个"个人 AI 助手"，我们实际上为这类东西找到了一个通用术语，基于 NanoClaw 和 ZeroClaw 等等……它们被称为 Claws。

Mac Mini 开始在硅谷地区售罄，因为人们购买它们来运行自己的 Claw。Drew Breunig 跟我开玩笑说，这是因为它们是新的数字宠物，而 Mac Mini 是养 Claw 的完美水族箱。

我对 Claws 最喜欢的比喻是 2004 年电影《蜘蛛侠 2》中 Alfred Molina 饰演的章鱼博士。他的机械爪由 AI 驱动，只要他的抑制芯片没有损坏，就完全安全……之后它们就变坏了并接管了一切。

同样在二月：Gemini 3.1 Pro 发布了，并给我画了一只非常棒的骑自行车的鹈鹕。看看这个！它的篮子里甚至还有一条鱼。

然后 Google 的 Jeff Dean 发布了这个视频，里面有一只骑自行车的动画鹈鹕，还有一只骑前轮大后轮小自行车的青蛙、一只开小汽车的长颈鹿、一只穿轮滑鞋的鸵鸟、一只玩滑板踢翻板的乌龟，以及一只开加长豪华轿车的腊肠犬。所以也许 AI 实验室一直在关注！

就在过去一个月里发生了很多事情。

Google 发布了 Gemma 4 系列模型，这是我所见过的美国公司中最强大的开放权重模型。

同样在上个月，中国 AI 实验室 GLM 发布了 GLM-5.1——一个 1.5TB 的开放权重巨兽！这是一个非常有效的模型……如果你能负担得起运行它的硬件的话。

GLM-5.1 给我画了这只非常称职的骑自行车的鹈鹕。

……不过当它尝试制作动画时，自行车弹到了顶部，自行车变形了。

Bluesky 上的 Charles 建议我用一只骑电动滑板车的北弗吉尼亚负鼠来试试。

结果它画出了这个！我在其他模型上试过，它们连边都沾不上。"自黄昏起巡游英联邦"太完美了。它还是动画的。

四月份其他出色的中国开放权重模型来自 Qwen。我笔记本上的 Qwen3.6-35B-A3B 给我画的鹈鹕比 Claude Opus 4.7 还好。这是一个 20.9GB 的开放权重模型，可以在我的笔记本上运行！（我认为这主要表明，骑自行车的鹈鹕作为有用基准已经彻底超出了它的极限。）

这是九月份 Claude Sonnet 4.5 画的鹈鹕，作为对比。

所以这就是过去六个月的两个主要主题。编程 agent 变得非常好用……而可在笔记本上运行的模型，虽然比前沿模型弱很多，但已经开始大大超出预期。

标签：闪电演讲, pycon, 演讲, ai, 生成式ai, 本地llm, llm, 带注释演讲, 骑自行车的鹈鹕, 编程agent

译自 Simon Willison · 博客 · 录于二〇二六年五月十九日