字节跳动发布开源模型 Lance,激活参数量仅 3B
@karminski3 究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接…
字节跳动发布开源全模态模型Lance,激活参数量3B,支持文本、图片、视频的输入与输出,可完成图片/视频理解、文生图/视频、图生图/视频、图片编辑等任务。训练仅用128张A100显卡。模型视觉输入模块采用Qwen2.5-VL-ViT,视觉输出模块为Wan2.2_VAE,包含Lance_3B(图片理解、生成、编辑)和Lance_3B_Video(视频任务)两个版本。其创新在于通过共享交错序列统一语义空间,并引入多任务协同专用专家模块缓解理解与生成任务的冲突,3B参数性能接近10B-20B模型水平。此外,ArenAI发布Qwen3.7-Max-Preview评测,整体排名第13,数学能力第7,编程第10,视觉能力第16,在空间理解和指令遵循上较Qwen3.6-Plus显著提升。
究极"拼好模"出现了!字节跳动 Lance!
字节跳动刚发布了一个开源模型 Lance,激活参数量只有 3B。但这个模型可以接受文本、图片、视频输入,同时可以输出文本、图片、视频。
所以这一个模型就能完成像图片理解、视频理解、文生图、图生图、图片编辑、文生视频、图生视频、视频编辑等任务。
训练团队在技术报告中透露,训练成本仅仅是 128 张 A100 显卡(按大厂算力来说纯纯是把冗余算力拿来用了)。
那为啥说是"拼好模"呢?原因是团队并没有完全从零造轮子。模型的视觉输入模块直接用了 Qwen2.5-VL-ViT(用来看图和视频),而视觉输出模块是 Wan2.2_VAE(用来画画)。模型本体是两个:
Lance_3B(用来做图片的理解、生成或编辑任务) Lance_3B_Video(用来做视频相关的任务,比如文生视频、图生视频)
所以,这完全是一个研究性项目,而项目本身的亮点其实恰好是"拼得好"。这个模型不像之前许多自称为全能模型的那样直接把大语言模型(LLM)和扩散模型(Diffusion)硬拼接在一起(即所谓的 Pipeline 方案)。
而是在一个共享的交错序列(Interleaved sequence)中同时处理文本、图像和视频的上下文。这样做最大的好处是统一了语义空间,让模型的理解能力和性能更好(从评测来看 3B 就接近了许多 10B 甚至 20B 模型的水平)。
另外还引入了多任务协同。简单来讲,理解任务(图片转向量)和生成任务(向量转图片)在模型内部本身是互斥的。Lance 创新性地在同一个框架内加入了专用专家模块,成功缓解了这种冲突,让模型既能做 VQA(视觉问答),又能做图像/视频生成和编辑。
期待一波实际应用落地,这个模型对于端侧和多模态 Agent 来讲意义重大,有很多之前需要多个模型协作的场景都能用单个模型做了。
#lance #全模态模型
Qwen3.7!就在今天!
ArenAI(就是之前的 LMArena),刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分。整体排名在第 13,处于目前版本国模 SOTA。
本次提升最高的是数学能力,达到了总榜第 7,编程水平在第 10。另外视觉能力测试也来到了第 16。
我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview,题目是一个使用 three.js 画一个软盘蓝图的场景,主要考察大模型的前端+空间理解+建模能力。
直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比(注意这个图上的元素完全是代码绘制的,不是大模型生成的图片)。
能看到 Qwen3.7 在空间理解和指令遵循上有了很大的提升,能保持所有元素都在同一轴向上(能完成这一点是巨大的进步,目前 DeepSeek-V4-Pro 还有这方面的问题)。
并且摆放顺序和每个标签的标记也是准确的,以及背景的网点效果也还原了(这就是指令遵循的提升体现)。当然不足的地方也有很多,比如这个软盘的一些不规则图形的细节刻画还是差了一些,但瑕不掩瑜。
稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测!
(另外值得注意的是,ArenaAI 给 meta 的新模型 Muse Spark 给到了第 5 的超高位置。而目前社区中这个模型一点水花都没有。我也没 API 能测这个模型。所以 ArenaAI 的评分还是仅供参考。)
#阿里千问 #qwen37 #qwen37max