@karminski3 Qwen3.7! 就在今天! ArenAI (原 LMArena) 刚刚发布了 Qwen3.7-Max-Preview 在 …

@karminski3 Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 …

二〇二六年五月十八日 · 英文原文

摘要

ArenAI 发布 Qwen3.7-Max-Preview 内测跑分，整体排名第13，为当前版本国模 SOTA。数学能力升至总榜第7，编程第10，视觉能力第16。实测显示其在 three.js 绘制软盘蓝图的场景中，空间理解与指令遵循显著提升，所有元素保持同一轴向，标签标记准确，背景网点效果还原，但部分不规则图形细节仍有不足。此外，字节跳动发布开源模型 Lance，激活参数量 3B，可接受文本、图片、视频输入并输出文本、图片、视频。训练成本为 128 张 A100 显卡。模型视觉输入模块使用 Qwen2.5-VL-ViT，视觉输出模块为 Wan2.2_VAE，本体分为 Lance_3B（图片理解、生成、编辑）与 Lance_3B_Video（视频任务）。其在共享交错序列中统一处理多模态上下文，并引入多任务协同与专用专家模块缓解理解与生成任务的互斥，3B 参数接近 10B-20B 模型水平。

Qwen3.7！就在今天！

ArenAI（即之前的 LMArena）刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分。整体排名第13，处于目前版本国模 SOTA。

本次提升最高的是数学能力，达到总榜第7，编程水平在第10。另外视觉能力测试也来到第16。

我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview，题目是一个使用 three.js 绘制软盘蓝图的场景，主要考察大模型的前端 + 空间理解 + 建模能力。

直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比（注意图上的元素完全是代码绘制的，不是大模型生成的图片）。

能看到 Qwen3.7 在空间理解和指令遵循上有了很大提升，能保持所有元素都在同一轴向上（能完成这一点是巨大进步，目前 DeepSeek-V4-Pro 在这方面还有问题）。

并且摆放顺序和每个标签的标记也是准确的，背景的网点效果也还原了（这就是指令遵循提升的体现）。当然不足的地方也有很多，比如这个软盘的一些不规则图形的细节刻画还是差了一些，但瑕不掩瑜。

稍后正式发布后会给大家带来 Qwen3.7-Max 的详细评测！

（另外值得注意的是，ArenaAI 给 meta 的新模型 Muse Spark 排到了第5的超高位置，而目前社区中这个模型一点水花都没有。我也没 API 能测这个模型，所以 ArenaAI 的评分还是仅供参考。）

#阿里千问 #qwen37 #qwen37max

究极“拼好模”出现了！字节跳动 Lance！

字节跳动刚发布了一个开源模型 Lance，激活参数量只有 3B。但这个模型可以接受文本、图片、视频输入，同时可以输出文本、图片、视频！

所以这一个模型就能完成像图片理解、视频理解、文生图、图生图、图片编辑、文生视频、图生视频、视频编辑等任务。

而训练团队在技术报告中透露，训练成本仅仅是 128 张 A100 显卡（按大厂算力来说，纯属把冗余算力拿来用了）。

那为啥说是“拼好模”呢？原因是团队并没有完全从零造轮子。模型的视觉输入模块直接用了 Qwen2.5-VL-ViT（用来看图和视频），而视觉输出模块是 Wan2.2_VAE（用来画画）。而模型本体是两个：

Lance_3B（用来做图片的理解、生成或编辑任务） Lance_3B_Video（用来做视频相关的任务，比如文生视频、图生视频）

所以，这完全是一个研究性项目，而项目本身的亮点其实恰好是“拼得好”。这个模型不像之前许多自称为全能模型的那样直接把大语言模型（LLM）和扩散模型（Diffusion）硬拼接在一起（即所谓的 Pipeline 方案）。

而是在一个共享的交错序列（Interleaved sequence）中同时处理文本、图像和视频的上下文。这样做最大的好处是统一了语义空间，让模型的理解能力和性能更好（从评测来看，3B 就接近了许多 10B 甚至 20B 模型的水平）。

另外还引入了多任务协同。简单来讲，理解任务（图片转向量）和生成任务（向量转图片）在模型内部本身是互斥的。Lance 创新性地在同一个框架内加入了专用专家模块，成功缓解了这种冲突，让模型既能做 VQA（视觉问答），又能做图像/视频生成和编辑。

期待一波实际应用落地。这个模型对于端侧和多模态 Agent 来讲意义重大，有很多之前需要多个模型协作的场景都能用单个模型做了。

#lance #全模态模型

译自 X · 研究者一手 · 录于二〇二六年五月十八日