MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

谷歌Gemini API File Search升级多模态RAG:支持图文统一检索与页码级引用

谷歌为Gemini API的File Search工具推出三大更新,新增多模态检索、元数据过滤和页码级精确引用功能,助力开发者构建更高效的RAG系统。

References

Gemini API File Search多模态RAG功能展示
Gemini API File Search现已支持多模态RAG检索 Image source

谷歌近日为Gemini API的File Search工具推出三项重大更新,显著增强了其多模态检索增强生成(RAG)能力。

核心更新一览

多模态检索:基于Gemini Embedding 2模型,开发者上传的图片和文本可在同一知识库中统一索引和检索。用户可用自然语言描述视觉风格或情绪基调,系统即可从图片库中精准定位目标素材。

自定义元数据过滤:上传文件时可附加键值标签(如department: Legal),查询时按标签预过滤,有效缩小检索范围,提升搜索效率和精度。

页码级精确引用:模型回答时可标注信息来自哪个文件的第几页,用户可直接跳转核实,降低幻觉风险,增强回答可信度。

实际应用案例

据谷歌博客报道,Klipy联合创始人兼CEO Givi Beridze表示,新功能对其GIF素材库检索质量提升显著,模型对不同质量图片中的文字理解能力大幅增强,用户可简单描述即找到完美视觉素材。

AI科学协作者K-Dense则利用该功能构建统一视觉记忆,支持跨Western Blot、显微镜图像等多种模态的科学数据检索,早期测试显示在混合模态语料库中检索准确率和延迟表现优异。

代码上下文提供商Code Fundi通过索引开源项目的架构图、ERD和时序图,为AI代理提供“ photographic memory”,帮助其精准定位数据并释放超过50%的上下文窗口用于推理。

定价与可用性

File Search是谷歌内置于Gemini API的全托管RAG系统,自动处理文件存储、分块、向量化和上下文注入。存储和查询时的embedding生成免费,仅在首次索引时按每百万token 0.15美元收费。