Jina AI于近日开源了jina-embeddings-v5-omni模型系列,这是该公司推出的首款支持文本、图像、音频和视频四种模态的统一向量嵌入模型。该模型基于VLM(视觉-语言模型)风格架构构建,通过一种创新的「冻结塔组合」(Frozen-Tower Composition)方法,将非文本编码器产生的输出适配到语言模型层,从而生成涵盖所有输入类型的统一语义向量[1][2]。
极低成本的模态扩展路径
v5-omni的核心技术突破在于其「冻结主干」策略。与传统多模态模型需要整体重训网络的做法不同,v5-omni锁死原有的纯文本主干模型,仅训练连接各模态编码器的投影层。这部分参与训练的参数仅占模型总权重的0.35%[1]。
这一设计带来了显著的训练效率提升:最高可节省64%的显存占用,训练速度提升达3.9倍[1]。这意味着企业无需从头构建多模态系统,大幅降低了部署门槛。
向量兼容性:存量索引零损耗
v5-omni最为实用的特性在于其向量兼容性。由于底层文本编码器被完全冻结,相同的文本输入在v5-omni和旧版v5-text下会输出**位级一致(bit-identical)**的向量[2]。
这直接解决了企业升级多模态的核心痛点:已基于v5-text构建的庞大文本索引无需推倒重算,企业只需为新增的图像、音频和视频内容建立向量库,即可在原有检索系统上无缝解锁四模态搜索能力[4]。
性能表现:小身材打平大竞品
v5-omni提供small和nano两种规格:
- omni-small:约1.74B参数,在文本、图像、音频、视频四个模态的平均得分为53.93,与参数量近6倍于它的LCO-Embedding-Omni-7B(54.43分)基本持平[1][3]
- omni-nano:基于0.24B参数的文本模型扩展,仅0.95B参数即可提供具竞争力的文档检索性能[2]
在文本检索基准测试MMTEB中,v5-omni不仅领跑同参数量级模型,还击败了参数量在7B至14B范围的竞品[4]。目前该模型在视频检索等任务上仍有提升空间[1]。
产业生态整合
作为Jina AI的合作伙伴,Elastic已在第一时间将v5-omni系列集成至其搜索平台。v5-text用户可直接切换至omni模型,立即获得多媒体内容的统一向量检索能力[4]。
该模型的发布验证了一条极具商业价值的技术路径:当文本基座足够强大时,扩展感知模态的边际成本可趋近于极低水平,为企业级多模态检索的普及扫清了最后一道障碍。