MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Jina AI发布v5-omni:用0.35%参数激活四模态检索,「冻结塔」架构让文本索引无缝升级

Jina AI推出全新四模态向量模型v5-omni,通过冻结原文本主干仅微调连接层的方式,以极低训练成本实现文本、图像、音频、视频的统一检索向量表示,已与Elastic等平台集成。

References

v5-omni模型架构图
jina-embeddings-v5-omni采用VLM风格架构,通过冻结文本编码器并新增跨模态投影层实现四模态支持 Image source

Jina AI于近日开源了jina-embeddings-v5-omni模型系列,这是该公司推出的首款支持文本、图像、音频和视频四种模态的统一向量嵌入模型。该模型基于VLM(视觉-语言模型)风格架构构建,通过一种创新的「冻结塔组合」(Frozen-Tower Composition)方法,将非文本编码器产生的输出适配到语言模型层,从而生成涵盖所有输入类型的统一语义向量[1][2]。

极低成本的模态扩展路径

v5-omni的核心技术突破在于其「冻结主干」策略。与传统多模态模型需要整体重训网络的做法不同,v5-omni锁死原有的纯文本主干模型,仅训练连接各模态编码器的投影层。这部分参与训练的参数仅占模型总权重的0.35%[1]。

这一设计带来了显著的训练效率提升:最高可节省64%的显存占用,训练速度提升达3.9倍[1]。这意味着企业无需从头构建多模态系统,大幅降低了部署门槛。

向量兼容性:存量索引零损耗

v5-omni最为实用的特性在于其向量兼容性。由于底层文本编码器被完全冻结,相同的文本输入在v5-omni和旧版v5-text下会输出**位级一致(bit-identical)**的向量[2]。

这直接解决了企业升级多模态的核心痛点:已基于v5-text构建的庞大文本索引无需推倒重算,企业只需为新增的图像、音频和视频内容建立向量库,即可在原有检索系统上无缝解锁四模态搜索能力[4]。

性能表现:小身材打平大竞品

v5-omni提供small和nano两种规格:

  • omni-small:约1.74B参数,在文本、图像、音频、视频四个模态的平均得分为53.93,与参数量近6倍于它的LCO-Embedding-Omni-7B(54.43分)基本持平[1][3]
  • omni-nano:基于0.24B参数的文本模型扩展,仅0.95B参数即可提供具竞争力的文档检索性能[2]

在文本检索基准测试MMTEB中,v5-omni不仅领跑同参数量级模型,还击败了参数量在7B至14B范围的竞品[4]。目前该模型在视频检索等任务上仍有提升空间[1]。

产业生态整合

作为Jina AI的合作伙伴,Elastic已在第一时间将v5-omni系列集成至其搜索平台。v5-text用户可直接切换至omni模型,立即获得多媒体内容的统一向量检索能力[4]。

该模型的发布验证了一条极具商业价值的技术路径:当文本基座足够强大时,扩展感知模态的边际成本可趋近于极低水平,为企业级多模态检索的普及扫清了最后一道障碍。