X · 研究者一手

@karminski3 Kimi-K2.6 前端/后端/Agent 编程能力实测，甚至帮我做了个游戏，带大家看刚刚正式推出的 kimi-k2.6

@karminski3 Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式…

二〇二六年五月八日 · 英文原文

摘要

作者实测 Moonshot Kimi-K2.6，用 kimi-k2.6-code-preview 构建 harness 游戏自动生成框架，生成关卡、图像 prompt、配音 prompt，并通过 CLI 让模型自测关卡；框架含对话、脚本、关卡、测试、玩家检讨等 skill，单关卡约 1 小时。测试称复杂前端能力略降，后端和 Agent 能力提升。

Kimi-K2.6 前端/后端/Agent 编程能力实测！甚至还帮我做了个游戏！

给大家带来刚刚正式发布的 kimi-k2.6 正式版本实测！

这次为了考验它的长程 Agentic Coding 能力，我用 kimi-k2.6-code-preview 写了一个 harness 游戏自动生成框架。它可以根据给定的人设、场景、数值设计等规则，自动生成关卡、背景图片，甚至配音！

其中，框架驱动和草稿模型使用 kimi-k2.6；文生图和语音生成则由 kimi-k2.6 生成 prompt 后，再调用其他大模型完成。

最好玩的是，我做了一个“无头”版本的游戏 CLI 接口。kimi-k2.6 可以像玩早期互联网 Mud 游戏一样，用纯文本玩这个游戏。每当它生成关卡之后，就可以直接进入游戏玩一下，用来验证关卡设计是否正确。

内部设计又分为对话生成 skill、脚本生成 skill、关卡生成 skill、游戏测试大师 skill、游戏资深玩家 skill（用于检讨游戏性）等等，从而实现了让大模型自己写游戏、自己玩！每个关卡大概需要 1 个小时来生成和验证，如果并行验证应该还能更快一些（做多线程 BFS/DFS）。

另外，这次依旧使用大家熟悉的测试项目进行了前端/后端/Agent 能力测试。从测试来看，复杂项目前端能力（建模、空间理解、物理模拟等）略有下降，但后端和 Agent 能力有明显提升。不过如果你是纯做网站，可以用 kimi 网站上的 k2.6 Agent 模式。由于 Agent 能力足够强，可以在这个模式下通过多步操作来提升生成网站的质量和交互体验。

#kimi #kimik26 #moonshot #月之暗面 #kimicli

译自 X · 研究者一手 · 录于二〇二六年五月八日