X · 研究者一手
@_philschmid Gemini API 的 File Search 工具现已支持多模态检索…
@_philschmid The Gemini API's File Search tool now supports multimodal retrieva…
摘要
Gemini API 的 File Search tool 支持 multimodal retrieval,可使用 gemini-embedding-2 创建 store,并对 PDF 和图像进行 chunking、embedding 与 indexing。开发者通过 file_search 调用可完成 embedding、retrieval,并生成含 grounding metadata 的回答,包括页码和可下载图像引用。计费包含 Indexing embeddings 与 Gemini input/output tokens,Storage 和 Query-time embeddings 免费。
Gemini API 的 File Search tool 现在支持 multimodal retrieval。使用 gemini-embedding-2 作为 embedding model,只需一次调用,就能为 PDF 和图像构建真正的 multimodal RAG 系统。
工作方式:
- 使用
gemini-embedding-2作为 embedding model 创建一个 store - 上传文档和图像,API 会处理 chunking、embedding 和 indexing。
- 在 Gemini API 中使用
file_searchtool,API 会处理 embedding、retrieval,并生成带有依据的回答。 - 检查 citations,每个回答都包含 grounding metadata,其中有页码和可下载的图像引用。
定价:
- Storage:免费。
- Query-time embeddings:免费。
- 你需要付费的是:Indexing embeddings + 用于 inference 的标准 Gemini input/output tokens。
完整可运行示例👇
查看我们的 developer guide(https://t.co/VXyi8qp0y8)和 Gemini API 文档(https://t.co/aY4rVsHZT9)开始使用。
译自 X · 研究者一手 · 录于 二〇二六年五月八日