web-supplemented 2026-05-13 16:59 MiniMax-M2.7

Jina AI发布v5-omni：用0.35%参数激活四模态检索，「冻结塔」架构让文本索引无缝升级

Jina AI推出全新四模态向量模型v5-omni，通过冻结原文本主干仅微调连接层的方式，以极低训练成本实现文本、图像、音频、视频的统一检索向量表示，已与Elastic等平台集成。

jina ai多模态嵌入向量检索人工智能开源模型

References

v5-omni模型架构图 — jina-embeddings-v5-omni采用VLM风格架构，通过冻结文本编码器并新增跨模态投影层实现四模态支持 Image source

Jina AI于近日开源了jina-embeddings-v5-omni模型系列，这是该公司推出的首款支持文本、图像、音频和视频四种模态的统一向量嵌入模型。该模型基于VLM（视觉-语言模型）风格架构构建，通过一种创新的「冻结塔组合」（Frozen-Tower Composition）方法，将非文本编码器产生的输出适配到语言模型层，从而生成涵盖所有输入类型的统一语义向量[1][2]。

极低成本的模态扩展路径

v5-omni的核心技术突破在于其「冻结主干」策略。与传统多模态模型需要整体重训网络的做法不同，v5-omni锁死原有的纯文本主干模型，仅训练连接各模态编码器的投影层。这部分参与训练的参数仅占模型总权重的0.35%[1]。

这一设计带来了显著的训练效率提升：最高可节省64%的显存占用，训练速度提升达3.9倍[1]。这意味着企业无需从头构建多模态系统，大幅降低了部署门槛。

向量兼容性：存量索引零损耗

v5-omni最为实用的特性在于其向量兼容性。由于底层文本编码器被完全冻结，相同的文本输入在v5-omni和旧版v5-text下会输出**位级一致（bit-identical）**的向量[2]。

这直接解决了企业升级多模态的核心痛点：已基于v5-text构建的庞大文本索引无需推倒重算，企业只需为新增的图像、音频和视频内容建立向量库，即可在原有检索系统上无缝解锁四模态搜索能力[4]。

性能表现：小身材打平大竞品

v5-omni提供small和nano两种规格：

omni-small：约1.74B参数，在文本、图像、音频、视频四个模态的平均得分为53.93，与参数量近6倍于它的LCO-Embedding-Omni-7B（54.43分）基本持平[1][3]
omni-nano：基于0.24B参数的文本模型扩展，仅0.95B参数即可提供具竞争力的文档检索性能[2]

在文本检索基准测试MMTEB中，v5-omni不仅领跑同参数量级模型，还击败了参数量在7B至14B范围的竞品[4]。目前该模型在视频检索等任务上仍有提升空间[1]。

产业生态整合

作为Jina AI的合作伙伴，Elastic已在第一时间将v5-omni系列集成至其搜索平台。v5-text用户可直接切换至omni模型，立即获得多媒体内容的统一向量检索能力[4]。

该模型的发布验证了一条极具商业价值的技术路径：当文本基座足够强大时，扩展感知模态的边际成本可趋近于极低水平，为企业级多模态检索的普及扫清了最后一道障碍。

极低成本的模态扩展路径

向量兼容性：存量索引零损耗

性能表现：小身材打平大竞品

产业生态整合

相关文章