web-supplemented 2026-05-06 22:46 MiniMax-M2.7

谷歌Gemini API File Search升级多模态RAG：支持图文统一检索与页码级引用

谷歌为Gemini API的File Search工具推出三大更新，新增多模态检索、元数据过滤和页码级精确引用功能，助力开发者构建更高效的RAG系统。

gemini apirag多模态检索google人工智能开发者工具

References

谷歌近日为Gemini API的File Search工具推出三项重大更新，显著增强了其多模态检索增强生成（RAG）能力。

核心更新一览

多模态检索：基于Gemini Embedding 2模型，开发者上传的图片和文本可在同一知识库中统一索引和检索。用户可用自然语言描述视觉风格或情绪基调，系统即可从图片库中精准定位目标素材。

自定义元数据过滤：上传文件时可附加键值标签（如department: Legal），查询时按标签预过滤，有效缩小检索范围，提升搜索效率和精度。

页码级精确引用：模型回答时可标注信息来自哪个文件的第几页，用户可直接跳转核实，降低幻觉风险，增强回答可信度。

据谷歌博客报道，Klipy联合创始人兼CEO Givi Beridze表示，新功能对其GIF素材库检索质量提升显著，模型对不同质量图片中的文字理解能力大幅增强，用户可简单描述即找到完美视觉素材。

AI科学协作者K-Dense则利用该功能构建统一视觉记忆，支持跨Western Blot、显微镜图像等多种模态的科学数据检索，早期测试显示在混合模态语料库中检索准确率和延迟表现优异。

代码上下文提供商Code Fundi通过索引开源项目的架构图、ERD和时序图，为AI代理提供“ photographic memory”，帮助其精准定位数据并释放超过50%的上下文窗口用于推理。

File Search是谷歌内置于Gemini API的全托管RAG系统，自动处理文件存储、分块、向量化和上下文注入。存储和查询时的embedding生成免费，仅在首次索引时按每百万token 0.15美元收费。