DeepMind · 官方

推出 Gemini Omni

Introducing Gemini Omni

二〇二六年五月十九日 · 英文原文

Google推出Gemini Omni Flash,这是Omni系列首个模型,可从视频、图像、音频、文本等任意输入生成高质量视频。该模型结合Gemini的推理与创造能力,支持通过自然语言对话编辑视频,并基于对重力、动能等物理理解及历史、科学知识生成更逼真的场景。Gemini Omni Flash即日起向Google AI Plus、Pro、Ultra订阅用户开放,并通过Gemini应用、Google Flow及YouTube Shorts提供,所有生成视频均含SynthID数字水印。

10 分钟阅读

Gemini Omni Flash 是一款可以从任何输入创建任何内容的模型——从视频开始。

去年,Nano Banana 将 Gemini 的智能引入了图像生成和编辑领域。自那以后,它已帮助数百万人修复老照片、根据草图进行设计,并以前所未有的方式将想法可视化。从一开始,我们就将 Gemini 构建为原生多模态模型,现在我们正迈出下一步。

我们推出了 Gemini Omni,在这里,Gemini 的推理能力与创造能力相结合。Omni 是我们的新模型,可以从任何输入创建任何内容——从视频开始。借助 Omni,您可以组合图像、音频、视频和文本作为输入,并生成基于 Gemini 现实世界知识的高质量视频。您还可以通过对话轻松编辑视频。

今天,我们向 Gemini 应用、Google Flow 和 YouTube Shorts 推出 Omni 系列的第一个模型:Gemini Omni Flash。未来,我们将支持图像和音频等输出模态。以下是 Omni 的一些独特之处:

通过对话编辑视频

Gemini Omni 为您提供了一种更简单的视频编辑方式——使用自然语言。每条指令都基于上一条指令。您的角色保持一致,物理效果保持稳定,场景会记住之前发生的一切。

改变你周围的世界。 改变特定事物,或改变一切。您的视频成为起点,让您创造出自己永远无法拍摄到的内容。

提示:用气泡制作雕塑。

重新构想动作。 拍摄一段视频,只需让 Omni 改变正在发生的事情。编辑动作,添加新角色或物体,或将某个瞬间转变为意想不到的东西。

提示:当人触摸镜子时,让镜子像液体一样美丽地泛起涟漪,人的手臂变成反光镜面材质。

通过多轮对话优化视频。 改变环境、角度、风格甚至具体细节,而不会丢失原始场景的脉络。滚动浏览轮播图,查看编辑如何相互叠加。

提示:一位小提琴手演奏歌曲的视频。

基于 Gemini 的世界知识,将想法变为现实

Gemini Omni 不仅构建看起来真实的场景,它还会推理接下来应该发生什么。它将直观的物理理解与 Gemini 在历史、科学和文化背景方面的知识相结合,弥合了从照片级真实感到有意义叙事之间的差距。

创建物理效果更准确的视觉效果。 Omni 对重力、动能和流体动力学等力有了更直观的理解,使您能够创建更逼真的场景。

提示:一个弹珠在连锁反应式轨道上快速滚动,连续平滑镜头。

融合知识与创造力。 Omni 利用 Gemini 的知识,以远超模式匹配的方式连接语言、图像和意义。

提示:视频展示字母表中的物品。每个字母对应的不寻常物品放在桌子上(例如 C 对应 Capybara,D 对应 Disco Globe,L 对应 Lava Lamp)。所有 26 个字母必须由 26 个物品表示,并匹配显示字母的下三分之一字幕。每次只显示一个物品和对应的下三分之一字幕。每个下三分之一字幕看起来必须像用黑色记号笔写在左下角的一张纸条上。快速切换,每个物品大约 9 帧,24FPS。最后一帧是一张写着"THE END"的纸条。整个视频伴有平静柔和的音乐。

复杂想法可视化。 Omni 可以根据简短提示创建引人入胜的解释性视频,生成分解更复杂想法的视觉效果。

提示:蛋白质折叠的黏土动画解释,所有东西都由黏土制成,没有手,定格动画,准确

从任意输入组合创建视频

引用任何内容。 Omni 将任何参考——图像、文本、视频或音频——转化为单一、连贯的输出。虽然音频输入最初仅支持语音参考,但我们很快将推出其他类型的音频输入。

提示:基于 image_0.png 的动态科幻电影风格视频。元素像 video_0.mp4 一样亮起,并与 audio_0.wav 的音乐节拍同步。

从你已有的内容开始。 通过输入参考,您可以使用角色、场景或绘画的图像,以符合您愿景的方式进行创作。

提示:想象当我行走时,世界逐渐变成复古未来主义风格(像 image-1 一样颗粒感且情绪化)。使用音频作为复古未来主义背景音乐。10 秒。

应用风格、运动或效果。 通过使用输入参考来定义视觉语言,或者直接用自然语言描述。Omni 融合输入参考以创建连贯的剪辑。

提示:保持一切不变进行编辑。从滑板上添加动画运动效果。

使用你自己的数字头像创建视频

我们致力于负责任地开发 AI,并制定了明确的政策来保护用户免受伤害,并规范我们 AI 工具的使用。首先,您可以通过 Avatars 使用自己的声音创建视频,该功能会创建您的数字版本,以便您生成看起来和听起来都像您的视频。除了头像功能之外,在编辑视频以更改音频和语音方面,我们仍在测试并更好地理解如何负责任地将此功能带给用户。

所有使用 Omni 创建的视频都包含我们不可察觉的 SynthID 数字水印。您可以通过 Gemini 应用、Chrome 中的 Gemini 和 Google 搜索轻松验证视频是否由 Gemini Omni 生成。您可以在我们的博客文章中了解更多关于我们如何扩展内容透明度和验证工具,以帮助您了解网络上的内容是如何创建和编辑的。

立即试用 Gemini Omni

今天,我们推出了 Omni 系列的第一个模型——Gemini Omni Flash。Gemini Omni Flash 即日起向全球所有 Google AI Plus、Pro 和 Ultra 订阅用户开放,可通过 Gemini 应用Google Flow 使用。从本周开始,它还将免费向 YouTube Shorts 和 YouTube Create App 的用户推出。

在未来几周内,我们还将通过 API 向开发者和企业客户推出。

在您的收件箱中获取更多来自 Google 的故事。

完成。只需再一步。

检查您的收件箱以确认订阅。

您已订阅我们的新闻通讯。

您也可以使用

译自 DeepMind · 官方 · 录于 二〇二六年五月十九日