一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@_philschmid Gemini API 的 File Search 工具现已支持多模态检索…

@_philschmid The Gemini API's File Search tool now supports multimodal retrieva…

二〇二六年五月八日 · 英文原文

Gemini API 的 File Search tool 支持 multimodal retrieval,可使用 gemini-embedding-2 创建 store,并对 PDF 和图像进行 chunking、embedding 与 indexing。开发者通过 file_search 调用可完成 embedding、retrieval,并生成含 grounding metadata 的回答,包括页码和可下载图像引用。计费包含 Indexing embeddings 与 Gemini input/output tokens,Storage 和 Query-time embeddings 免费。

Gemini API 的 File Search tool 现在支持 multimodal retrieval。使用 gemini-embedding-2 作为 embedding model,只需一次调用,就能为 PDF 和图像构建真正的 multimodal RAG 系统。

工作方式:

  1. 使用 gemini-embedding-2 作为 embedding model 创建一个 store
  2. 上传文档和图像,API 会处理 chunking、embedding 和 indexing。
  3. 在 Gemini API 中使用 file_search tool,API 会处理 embedding、retrieval,并生成带有依据的回答。
  4. 检查 citations,每个回答都包含 grounding metadata,其中有页码和可下载的图像引用。

定价:

完整可运行示例👇

查看我们的 developer guide(https://t.co/VXyi8qp0y8)和 Gemini API 文档(https://t.co/aY4rVsHZT9)开始使用。

译自 X · 研究者一手 · 录于 二〇二六年五月八日