web-supplemented 2026-05-11 18:05 MiniMax-M2.7

Google Gemini Omni视频模型提前泄露：或为统一多模态架构

Google尚未正式发布的视频生成模型Omni被用户发现在Gemini App中推送，早期测试显示其音视频质量显著优于现有Veo系列，疑似整合Gemini与Veo能力的统一模型，预计将在5月19日Google I/O大会上正式公布。

googlegeminiomni视频生成ai模型google-ioveo多模态

References

Gemini界面Omni泄露截图 — Gemini视频生成界面中出现的Omni标识 Image source

Google Gemini Omni视频模型提前泄露：或为统一多模态架构

距离Google I/O 2026大会（5月19日至20日）正式开幕还有不到一周时间，Google内部代号为「Omni」的视频生成模型已被用户提前发现。

多位Reddit用户报告称，过去一周在使用Gemini App时频繁看到一个标注「Powered by Omni」的新视频生成入口，该入口与当前由Veo 3.1（内部代号Toucan）驱动的视频功能并列出现。TestingCatalog首先报道了这一UI字符串泄露事件，并指出如果Google计划发布用于视频生成的Gemini Omni，它很可能将超越现有的Veo 3.1。

早期测试反馈积极

一位实际试用的用户给出了高度评价，称Omni是他体验过的最佳视频模型之一，在提示词遵循度和多机位切换连贯性方面表现出色。他特别强调，Omni生成的语音和环境音质量比Veo系列高出不止一个档次，甚至能自动为场景配上契合的背景音乐。

不过测试也暴露了一些问题。首先是速率限制极为严格，Pro订阅用户仅生成两次视频就消耗了80%的额度配额。其次，版权和肖像保护机制仍在运作，经典的「威尔·史密斯吃意面」测试场景仍被护栏拦截。

统一多模态架构的信号

目前Gemini生态中存在明显的功能分裂：视频生成依赖Veo 3.1，静态图像则由Nano Banana系列（基于Gemini 3/3.1 Flash Image）处理。Omni的出现可能预示着Google正在将文本、图像和视频的生成能力整合到同一架构下。

Google DeepMind CEO Demis Hassabis此前曾公��表示有意将Gemini与Veo进行合并，Omni很可能是这一整合计划的实际产物。与OpenAI将Sora作为独立产品推出的策略不同，Google选择将视频能力深度嵌入其Gemini原生生态中。

WaveSpeedAI分析指出，Omni可能存在三种情况：作为Veo驱动路径的新品牌名称、独立于Veo 3.1的全新训练视频模型，或整合图像和视频的统一全能模型。最终答案预计将在5月19日的Google I/O主题演讲中揭晓。

Google Gemini Omni视频模型提前泄露：或为统一多模态架构

早期测试反馈积极

统一多模态架构的信号

相关文章