X · 研究者一手

Midjourney 创始人自爆未用N卡致落后一年?X上热议TPU

@karminski3 Midjourney 创始人自爆没有使用N卡导致落后一年? 刚刚在 X 上有个讨论 TPU(Google Tensor Process…

二〇二六年五月二十日 · 英文原文

Midjourney创始人David Holz透露,因在TPU上使用JAX训练模型、在GPU上使用PyTorch推理,导致工具链断层和调试困难,产品迭代落后一年。他承认应从一开始使用纯NVIDIA方案。同时,字节跳动发布开源模型Lance,激活参数量3B,支持文本、图片、视频输入与输出,可完成理解、生成、编辑等多任务。训练仅用128张A100显卡。模型视觉输入模块采用Qwen2.5-VL-ViT,输出模块为Wan2.2_VAE,通过共享交错序列统一语义空间,并引入专用专家模块缓解理解与生成任务的冲突。

Midjourney 创始人自爆没有使用N卡导致落后一年?

刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子,Midjourney 创始人 David Holz 不经意间爆了个大料:解释了为什么他们过去一年在产品迭代上显得如此疲软。

(原帖已经删了,毕竟用着TPU然后说TPU不好不太好哈哈哈,而且今天 Google I/O 还在搞。所以我给大家截图了评论)

简单来讲,Midjourney 之前为了搞底层基建,把技术栈搞成了精分状态:在 TPU 上使用 JAX 框架训练模型,又在 GPU 上使用 PyTorch 进行推理。

结果就是,团队天天在这两套环境中来回横跳,工具链断层,调试极其困难(老黄的 N 卡从 IR 到算子再到驱动都能调试,社区经验也很多,TPU 生态跟不上)。而且由于用 JAX(Google 搞的运行在 TPU 上的魔改 NumPy),导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用,全得自己移植。

David 更是直接说 "如果可以回到过去,我会从一开始就尝试使用纯英伟达的解决方案。"

所以如果说 DeepSeek 用国产卡,搞各种极限优化是因为缺卡被逼出来的,那 Midjourney 纯粹就是自己作出来的。

要知道去年以来,以 Google Nano-banana 为代表的修图大模型,和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发。对比之下,Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打。

我自己是 Midjourney 的订阅用户,我现在基本只用它做前期的创意草稿和风格探索(毕竟 MJ 的风格连贯性和艺术感目前还是最强的),然后精修和提升分辨率全都使用 nano-banana。而如果要排版做海报直出,做海报之类的直接用 OpenAI 的 ChatGPT Images 了。

帖子下面有个中国老哥评论得好:「亡羊补牢,为时不晚」。希望今年 Midjourney 赶紧跟上,毕竟目前风格迁移这个领域还是 Midjourney 比较好,基本盘还在的。

#Midjourney #NVIDIA #TPU #文生图大模型

究极"拼好模"出现了!字节跳动 Lance!

字节跳动刚发布了一个开源模型 Lance,激活参数量只有 3B。但是这个模型可以接受文本、图片、视频输入,然后同时可以输出文本、图片、视频!

所以这一个模型就能完成像图片理解、视频理解、文生图、图生图、图片编辑、文生视频、图生视频、视频编辑等任务。

而训练团队在技术报告中透露,训练成本仅仅是 128 张 A100 显卡(按照大厂算力来说纯纯是把冗余算力拿来用了)。

那为啥说是"拼好模"呢?原因是团队并没有完全从0造轮子。模型的视觉输入模块直接用了 Qwen2.5-VL-ViT(用来看图和视频),而视觉输出模块是 Wan2.2_VAE(用来画画)。而模型本体是两个:

Lance_3B(用来做图片的理解、生成或编辑任务) Lance_3B_Video(用来做视频相关的任务,比如文生视频、图生视频)

所以,这完全是一个研究性项目了,而项目本身的亮点其实恰好是"拼得好"。这个模型不像之前许多自称为全能模型那样直接把大语言模型(LLM)和扩散模型(Diffusion)硬拼接在一起(即所谓的 Pipeline 方案)。

而是在一个共享的交错序列(Interleaved sequence)中同时处理文本、图像和视频的上下文。这样做最大的好处是统一了语义空间,让模型的理解能力和性能更好。(从评测来看3B就接近了许多10B甚至20B模型的水平)

另外还引入了多任务协同。简单来讲,理解任务(图片转向量)和生成任务(向量转图片)在模型内部本身是互斥的。Lance 创新性地在同一个框架内加入了专用专家模块,成功缓解了这种冲突,让模型既能做 VQA(视觉问答),又能做图像/视频生成和编辑。

期待一波实际应用落地,这个模型对于端侧和多模态 Agent 来讲意义是重大的,有很多之前需要多个模型协作的场景都能用单个模型做了。

#lance #全模态模型

原帖(主post已经删了,评论还在):https://t.co/WrQdTauSww

译自 X · 研究者一手 · 录于 二〇二六年五月二十日