MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Google Gemini Omni视频模型提前泄露:或为统一多模态架构

Google尚未正式发布的视频生成模型Omni被用户发现在Gemini App中推送,早期测试显示其音视频质量显著优于现有Veo系列,疑似整合Gemini与Veo能力的统一模型,预计将在5月19日Google I/O大会上正式公布。

References

Gemini界面Omni泄露截图
Gemini视频生成界面中出现的Omni标识 Image source

Google Gemini Omni视频模型提前泄露:或为统一多模态架构

距离Google I/O 2026大会(5月19日至20日)正式开幕还有不到一周时间,Google内部代号为「Omni」的视频生成模型已被用户提前发现。

多位Reddit用户报告称,过去一周在使用Gemini App时频繁看到一个标注「Powered by Omni」的新视频生成入口,该入口与当前由Veo 3.1(内部代号Toucan)驱动的视频功能并列出现。TestingCatalog首先报道了这一UI字符串泄露事件,并指出如果Google计划发布用于视频生成的Gemini Omni,它很可能将超越现有的Veo 3.1。

早期测试反馈积极

一位实际试用的用户给出了高度评价,称Omni是他体验过的最佳视频模型之一,在提示词遵循度和多机位切换连贯性方面表现出色。他特别强调,Omni生成的语音和环境音质量比Veo系列高出不止一个档次,甚至能自动为场景配上契合的背景音乐。

不过测试也暴露了一些问题。首先是速率限制极为严格,Pro订阅用户仅生成两次视频就消耗了80%的额度配额。其次,版权和肖像保护机制仍在运作,经典的「威尔·史密斯吃意面」测试场景仍被护栏拦截。

统一多模态架构的信号

目前Gemini生态中存在明显的功能分裂:视频生成依赖Veo 3.1,静态图像则由Nano Banana系列(基于Gemini 3/3.1 Flash Image)处理。Omni的出现可能预示着Google正在将文本、图像和视频的生成能力整合到同一架构下。

Google DeepMind CEO Demis Hassabis此前曾公���表示有意将Gemini与Veo进行合并,Omni很可能是这一整合计划的实际产物。与OpenAI将Sora作为独立产品推出的策略不同,Google选择将视频能力深度嵌入其Gemini原生生态中。

WaveSpeedAI分析指出,Omni可能存在三种情况:作为Veo驱动路径的新品牌名称、独立于Veo 3.1的全新训练视频模型,或整合图像和视频的统一全能模型。最终答案预计将在5月19日的Google I/O主题演讲中揭晓。