Gemini-3.5-flash发布，价格翻三倍？Google I/O开幕，首日即发新模型

@karminski3 Gemini-3.5-flash发布! 价格直接翻三倍? Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5…

二〇二六年五月十九日 · 英文原文

摘要

Google I/O 发布 Gemini-3.5-flash，输入/输出价格从每百万 Token $0.50/$3 涨至 $1.5/$9。测试显示其性能介于 Gemini-3.0-pro 与 Gemini-3.1-Pro 之间，但 3D 渲染 shader 稳定性较差。字节跳动开源 Lance 模型，激活参数量 3B，支持文本、图片、视频输入与输出，训练成本为 128 张 A100 显卡。视觉输入模块使用 Qwen2.5-VL-ViT，输出模块使用 Wan2.2_VAE，包含 Lance_3B 和 Lance_3B_Video 两个版本，通过共享交错序列统一语义空间并引入多任务协同专家模块，在 3B 规模接近 10B-20B 模型水平。

Gemini-3.5-flash 发布！价格直接翻三倍？

Google I/O 开始啦！今天上来就是模型发布，Gemini-3.5-flash 直接全量上线了。价格直接从 Gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9，那么性能有提升吗？

我简单测了几个例子，目前来看体感处于 Gemini-3.0-pro 和 Gemini-3.1-Pro 之间（测试用的是 Thinking level: high）。不过稳定性就差很多了，3D 渲染的 shader 它怎么都写不对，我只能手动修了一下才能运行视频中这个火山喷发演示。

从目前 Gemini 系列模型迭代来看，Google 可能更想学 Anthropic，搞三个档次。flash-lite 会取代之前 flash 的位置。而 flash 更可能是主打一百万上下文内不设置阶梯定价，承接 pro 这部分溢出的用户。而本身编程性能上距离 pro 还有点差距。Pro 自然就是旗舰级别模型了。

不过现在这个定价来看，可能这次 flash 更多是为了跟这次一起发布的 Antigravity CLI 一起搭配用的。做 Claude Code 中 Sonnet 模型的生态位置。

#geminiflash35 #geminiflash #googleio

究极"拼好模"出现了！字节跳动 Lance！

字节跳动刚发布了一个开源模型 Lance，激活参数量只有 3B。但是这个模型可以接受文本、图片、视频输入，然后同时可以输出文本、图片、视频！

所以这一个模型就能完成像图片理解、视频理解、文生图、图生图、图片编辑、文生视频、图生视频、视频编辑等任务。

而训练团队在技术报告中透露，训练成本仅仅是 128 张 A100 显卡（按照大厂算力来说纯纯是把冗余算力拿来用了）。

那为啥说是"拼好模"呢？原因是团队并没有完全从0造轮子。模型的视觉输入模块直接用了 Qwen2.5-VL-ViT（用来看图和视频），而视觉输出模块是 Wan2.2_VAE（用来画画）。而模型本体是两个：

Lance_3B（用来做图片的理解、生成或编辑任务） Lance_3B_Video（用来做视频相关的任务，比如文生视频、图生视频）

所以，这完全是一个研究性项目了，而项目本身的亮点其实恰好是"拼得好"。这个模型不像之前许多自称为全能模型那样直接把大语言模型（LLM）和扩散模型（Diffusion）硬拼接在一起（即所谓的 Pipeline 方案）。

而是在一个共享的交错序列（Interleaved sequence）中同时处理文本、图像和视频的上下文。这样做最大的好处是统一了语义空间，让模型的理解能力和性能更好。（从评测来看3B就接近了许多10B甚至20B模型的水平）

另外还引入了多任务协同。简单来讲，理解任务（图片转向量）和生成任务（向量转图片）在模型内部本身是互斥的。Lance 创新性地在同一个框架内加入了专用专家模块，成功缓解了这种冲突，让模型既能做 VQA（视觉问答），又能做图像/视频生成和编辑。

期待一波实际应用落地，这个模型对于端侧和多模态 Agent 来讲意义是重大的，有很多之前需要多个模型协作的场景都能用单个模型做了。

#lance #全模态模型

译自 X · 研究者一手 · 录于二〇二六年五月十九日