@karminski3 Kimi-K2.6 前端/后端/Agent 编程能力实测,甚至帮我做了个游戏,带大家看刚刚正式推出的 kimi-k2.6
@karminski3 Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式…
作者实测 Moonshot Kimi-K2.6,用 kimi-k2.6-code-preview 构建 harness 游戏自动生成框架,生成关卡、图像 prompt、配音 prompt,并通过 CLI 让模型自测关卡;框架含对话、脚本、关卡、测试、玩家检讨等 skill,单关卡约 1 小时。测试称复杂前端能力略降,后端和 Agent 能力提升。
Kimi-K2.6 前端/后端/Agent 编程能力实测!甚至还帮我做了个游戏!
给大家带来刚刚正式发布的 kimi-k2.6 正式版本实测!
这次为了考验它的长程 Agentic Coding 能力,我用 kimi-k2.6-code-preview 写了一个 harness 游戏自动生成框架。它可以根据给定的人设、场景、数值设计等规则,自动生成关卡、背景图片,甚至配音!
其中,框架驱动和草稿模型使用 kimi-k2.6;文生图和语音生成则由 kimi-k2.6 生成 prompt 后,再调用其他大模型完成。
最好玩的是,我做了一个“无头”版本的游戏 CLI 接口。kimi-k2.6 可以像玩早期互联网 Mud 游戏一样,用纯文本玩这个游戏。每当它生成关卡之后,就可以直接进入游戏玩一下,用来验证关卡设计是否正确。
内部设计又分为对话生成 skill、脚本生成 skill、关卡生成 skill、游戏测试大师 skill、游戏资深玩家 skill(用于检讨游戏性)等等,从而实现了让大模型自己写游戏、自己玩!每个关卡大概需要 1 个小时来生成和验证,如果并行验证应该还能更快一些(做多线程 BFS/DFS)。
另外,这次依旧使用大家熟悉的测试项目进行了前端/后端/Agent 能力测试。从测试来看,复杂项目前端能力(建模、空间理解、物理模拟等)略有下降,但后端和 Agent 能力有明显提升。不过如果你是纯做网站,可以用 kimi 网站上的 k2.6 Agent 模式。由于 Agent 能力足够强,可以在这个模式下通过多步操作来提升生成网站的质量和交互体验。
#kimi #kimik26 #moonshot #月之暗面 #kimicli