X · 研究者一手

@_philschmid Gemini Embedding 2 现已 GA！一个能理解文本…

@_philschmid Gemini Embedding 2 now GA! One embedding model that understand tex…

二〇二六年五月八日 · 英文原文

摘要

Gemini Embedding 2 已 GA，支持文本、图像、视频、音频和 PDF 在统一 embedding space 中表示，最多 8,192 输入 token、100+ 语言，音频可原生嵌入；通过 MRL 提供 3,072/1,536/768 输出维度，单次请求支持 6 图、120s 视频、180s 音频和 6 页 PDF。

Gemini Embedding 2 现已 GA！一个 embedding model 可理解文本、图像、视频、音频和 PDF！

🖼️ 5 种 modality 位于同一个统一的 embedding space 中 🌍 支持最多 8,192 个输入 token，100+ 种语言 🎧 原生嵌入音频，无需 transcription 步骤 📐 灵活的输出维度：3,072 / 1,536 / 768，通过 MRL 实现 📎 每次请求最多支持 6 张图像、120s 视频、180s 音频和 6 页 PDF

https://t.co/AS8BcZF5UW

译自 X · 研究者一手 · 录于二〇二六年五月八日