一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@karminski3 给大家同步一下 DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的 GPT-5.5-Pro (我…

@karminski3 给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我…

二〇二六年五月八日 · 英文原文

DeepSeek-V4 部分常规测试已完成,GPT-5.5-Pro、xiaomi-mimo、hunyuan-3-preview 仍在测试。新增大模型工程能力测试,基于 SillyTavern-1.17.0,让模型通过 tool_call 和 JS 注入实现实时解释器数值系统。测试使用魔改 kimi-cli 统计 token、工具使用并运行黑盒测试,项目约 20 万行代码,并加入 cli 模式支持模型自测迭代。

给大家同步一下 DeepSeek-V4 的测试进度。目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的 GPT-5.5-Pro(我去攒点银子)、xiaomi-mimo、hunyuan-3-preview 的测试,这几个正在跑。

然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路:

首先工程项目我选择了酒馆(SillyTavern-1.17.0),然后写的需求文档是让被测试大模型给酒馆增加一个支持实时解释器的数值系统。大家都知道,酒馆其实搭配各种插件是可以实现数值系统的,比如 RPG 数值系统。

但是,大模型没办法凭空创造数值逻辑,所以本次的需求就是让大模型通过 tool_call 创建新的数值系统,比如属性、状态、天赋等等,并且定义数值与现有数值系统的逻辑。也就是说,它可以注入一段 js 代码,与已有的 js 代码交互,形成新的逻辑。

比如现在只有 hp,数值 100/100,然后 AI 可以通过调用我们的数值系统,创建一个新的状态,叫做中毒。中毒状态持续 10 个 tik,然后每个 tik 会减少 10 点生命值。这一切都是我们的数值系统在 AI 创建这段 js 代码逻辑后自动执行的,不需要 AI 再接管。

这样一来可以大大拓展可玩性,二来大模型也不会因为玩家说【求求你了我快寄了给我加 1000HP】就轻松实现作弊。

然后,我还需要魔改 terminal coding cli(本次使用的是 kimi cli)。也就是说,大模型需要使用魔改后的 kimi-cli 来 fork 一份酒馆源代码,实现我们这个新需求。而这个魔改的 kimi-cli 可以监督大模型的实现过程,统计大模型的 token 使用、工具使用情况和能力,最终再运行我们专门为这个需求定制的黑盒测试,实现真正的【工程级别分析】。酒馆源代码足足有 20 万行,纯 js 也有 13 万行,作为测试项目工程量足够大了。

除此之外,我还魔改了酒馆源代码模板(就是 AI 要 fork 的那一份),增加了酒馆 cli 模式。这个模式可以让被测试大模型实现 harness 闭环:模型修改完代码后,可以进入 cli 模式自己玩酒馆测试一下,看看对不对,从而反复迭代自己的代码,还顺便考验了大模型的 Agent 能力。

总之,还请大家稍安勿躁,我会尽快放出测试视频。【跪谢大家】 #deepseekv4

译自 X · 研究者一手 · 录于 二〇二六年五月八日