五分钟看懂LLM过去六个月
The last six months in LLMs in five minutes
在 PyCon US 2026 的五分钟闪电演讲中,作者总结了 2025 年 11 月至 2026 年 4 月 LLM 的发展。11 月成为转折点,最佳模型在 Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max 和 Claude Opus 4.5 间易手五次,编程 agent(如 Codex、Claude Code)从“偶尔能用”跨越至“基本能用”。12 月至 1 月,社区利用假期尝试新模型,作者用 vibe-coding 实现了 Python 版 JavaScript 解释器 micro-javascript(基于 Pyodide 和 WebAssembly)。2 月,开源项目 OpenClaw(个人 AI 助手,即 Claw)获得大量关注,Mac Mini 因运行 Claw 在硅谷售罄。2 月 Gemini 3.1 Pro 发布,Google 的 Jeff Dean 展示了动画鹈鹕。过去一个月,Google 发布开放权重模型 Gemma 4,中国 GLM 发布 1.5TB 的 GLM-5.1,Qwen 的 Qwen3.6-35B-A3B(20.9GB)可在笔记本运行,其绘制的鹈鹕质量超过 Claude Opus 4.7。
我整理了这些带注释的幻灯片,来自我在 PyCon US 2026 上的五分钟闪电演讲,使用的是我最新迭代的带注释演示工具。
我在 PyCon US 2026 上做了这场闪电演讲,试图在五分钟内总结过去六个月 LLM 的发展。
六个月是一个相当方便覆盖的时间段,因为它涵盖了我称之为 2025 年 11 月转折点 的时期。11 月是 LLM 的关键月份,尤其是在编程方面。
首先,所谓的"最佳"模型(主要取决于感觉)在三大提供商之间易手了五次。
和往常一样,我使用我的"生成一只骑自行车的鹈鹕的 SVG"测试来帮助说明模型之间的差异。为什么用这个测试?因为鹈鹕很难画,自行车很难画,鹈鹕不会骑自行车……而且任何 AI 实验室都不可能为这样一个荒谬的任务训练模型。
11 月初,被广泛认可的"最佳"模型是 9 月 29 日发布的 Claude Sonnet 4.5。它给我画了这只鹈鹕。11 月,它被 GPT-5.1 超越,然后是 Gemini 3,然后是 GPT-5.1 Codex Max,然后 Anthropic 凭借 Claude Opus 4.5 重新夺回桂冠。我认为 Gemini 3 在这批模型中画出了最好的鹈鹕,但鹈鹕不是一切。大多数从业者都同意,在接下来的几个月里,Opus 4.5 一直保持着领先地位。
过了一段时间才变得清晰,但 11 月的真正新闻是编程 agent 变得好用了。OpenAI 和 Anthropic 在 2025 年的大部分时间里都在运行基于可验证奖励的强化学习,以提高其模型编写代码的质量,尤其是在与它们的 Codex 和 Claude Code agent 框架配合使用时。11 月,这项工作的成果变得显而易见。编程 agent 从"偶尔能用"变成了"基本能用",跨越了一个质量门槛,你可以将它们作为日常工具来完成实际工作,而无需花大部分时间来修复它们愚蠢的错误。
同样在 11 月,发生了这件事——一个叫 Pete 的人对一个当时还很冷门的仓库"Warelay"进行了第一次提交。
在假期期间,从 12 月到 1 月,我们很多人都利用休息时间尝试了这些新模型和编程 agent,看看它们能做什么。它们能做很多事情!我们中的一些人有点过于兴奋了。我自己也短暂地经历了一种 LLM 精神错乱,开始启动雄心勃勃的项目,看看能把它们推到多远。
n * 2); console.log('Doubled: "', doubled); var evens = numbers.filter(n => n % 2 === 0); console.log('Evens: ', evens); var sum = numbers.reduce((a, b) => a + b, @); console.log('Sum:", sum); Output 27 Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] Evens: [2, 4, 6, 8, 10] Sum: 55 Execution time: 8.00ms About: micro-javascript is a pure Python JavaScript interpreter with configurable memory and time limits. This playground runs entirely in your browser using Pyodide (Python compiled to WebAssembly). View on GitHub" style="max-width: 100%" />
我的一个项目是用 Python 实现 JavaScript 的 vibe-coded 版本——一个 MicroQuickJS 的松散移植——我称之为 micro-javascript。你可以在这个 playground 中在浏览器里试试。
那个 playground 演示展示了使用我的 micro-javascript 库在 Python 中运行的 JavaScript 代码,而 Python 运行在 Pyodide 中,Pyodide 运行在 WebAssembly 中,WebAssembly 运行在 JavaScript 中,JavaScript 运行在浏览器中!这很酷!但有人需要这样一个有 bug、慢、不安全的半成品 Python 版 JavaScript 实现吗?并没有。我在那个假期期间还有不少其他项目,后来都悄悄退休了!
进入二月。还记得那个在 11 月底有第一次提交的 Warelay 项目吗?
在 12 月和 1 月,它经历了好几次改名……到了二月,它以最终名称 OpenClaw 席卷了世界。对于一个不到三个月大的项目来说,它获得的关注度相当惊人。
OpenClaw 是一个"个人 AI 助手",我们实际上为这类东西找到了一个通用术语,基于 NanoClaw 和 ZeroClaw 等等……它们被称为 Claws。
Mac Mini 开始在硅谷地区售罄,因为人们购买它们来运行自己的 Claw。Drew Breunig 跟我开玩笑说,这是因为它们是新的数字宠物,而 Mac Mini 是养 Claw 的完美水族箱。
我对 Claws 最喜欢的比喻是 2004 年电影《蜘蛛侠 2》中 Alfred Molina 饰演的章鱼博士。他的机械爪由 AI 驱动,只要他的抑制芯片没有损坏,就完全安全……之后它们就变坏了并接管了一切。
同样在二月:Gemini 3.1 Pro 发布了,并给我画了一只非常棒的骑自行车的鹈鹕。看看这个!它的篮子里甚至还有一条鱼。
然后 Google 的 Jeff Dean 发布了这个视频,里面有一只骑自行车的动画鹈鹕,还有一只骑前轮大后轮小自行车的青蛙、一只开小汽车的长颈鹿、一只穿轮滑鞋的鸵鸟、一只玩滑板踢翻板的乌龟,以及一只开加长豪华轿车的腊肠犬。所以也许 AI 实验室一直在关注!
就在过去一个月里发生了很多事情。
Google 发布了 Gemma 4 系列模型,这是我所见过的美国公司中最强大的开放权重模型。
同样在上个月,中国 AI 实验室 GLM 发布了 GLM-5.1——一个 1.5TB 的开放权重巨兽!这是一个非常有效的模型……如果你能负担得起运行它的硬件的话。
GLM-5.1 给我画了这只非常称职的骑自行车的鹈鹕。
……不过当它尝试制作动画时,自行车弹到了顶部,自行车变形了。
Bluesky 上的 Charles 建议我用一只骑电动滑板车的北弗吉尼亚负鼠来试试。
结果它画出了这个!我在其他模型上试过,它们连边都沾不上。"自黄昏起巡游英联邦"太完美了。它还是动画的。
四月份其他出色的中国开放权重模型来自 Qwen。我笔记本上的 Qwen3.6-35B-A3B 给我画的鹈鹕比 Claude Opus 4.7 还好。这是一个 20.9GB 的开放权重模型,可以在我的笔记本上运行!(我认为这主要表明,骑自行车的鹈鹕作为有用基准已经彻底超出了它的极限。)
这是九月份 Claude Sonnet 4.5 画的鹈鹕,作为对比。
所以这就是过去六个月的两个主要主题。编程 agent 变得非常好用……而可在笔记本上运行的模型,虽然比前沿模型弱很多,但已经开始大大超出预期。
标签:闪电演讲, pycon, 演讲, ai, 生成式ai, 本地llm, llm, 带注释演讲, 骑自行车的鹈鹕, 编程agent