谷歌近日为Gemini API的File Search工具推出三项重大更新,显著增强了其多模态检索增强生成(RAG)能力。
核心更新一览
多模态检索:基于Gemini Embedding 2模型,开发者上传的图片和文本可在同一知识库中统一索引和检索。用户可用自然语言描述视觉风格或情绪基调,系统即可从图片库中精准定位目标素材。
自定义元数据过滤:上传文件时可附加键值标签(如department: Legal),查询时按标签预过滤,有效缩小检索范围,提升搜索效率和精度。
页码级精确引用:模型回答时可标注信息来自哪个文件的第几页,用户可直接跳转核实,降低幻觉风险,增强回答可信度。
实际应用案例
据谷歌博客报道,Klipy联合创始人兼CEO Givi Beridze表示,新功能对其GIF素材库检索质量提升显著,模型对不同质量图片中的文字理解能力大幅增强,用户可简单描述即找到完美视觉素材。
AI科学协作者K-Dense则利用该功能构建统一视觉记忆,支持跨Western Blot、显微镜图像等多种模态的科学数据检索,早期测试显示在混合模态语料库中检索准确率和延迟表现优异。
代码上下文提供商Code Fundi通过索引开源项目的架构图、ERD和时序图,为AI代理提供“ photographic memory”,帮助其精准定位数据并释放超过50%的上下文窗口用于推理。
定价与可用性
File Search是谷歌内置于Gemini API的全托管RAG系统,自动处理文件存储、分块、向量化和上下文注入。存储和查询时的embedding生成免费,仅在首次索引时按每百万token 0.15美元收费。