X · 研究者一手
@_philschmid Gemini Embedding 2 现已 GA!一个能理解文本…
@_philschmid Gemini Embedding 2 now GA! One embedding model that understand tex…
摘要
Gemini Embedding 2 已 GA,支持文本、图像、视频、音频和 PDF 在统一 embedding space 中表示,最多 8,192 输入 token、100+ 语言,音频可原生嵌入;通过 MRL 提供 3,072/1,536/768 输出维度,单次请求支持 6 图、120s 视频、180s 音频和 6 页 PDF。
Gemini Embedding 2 现已 GA!一个 embedding model 可理解文本、图像、视频、音频和 PDF!
🖼️ 5 种 modality 位于同一个统一的 embedding space 中 🌍 支持最多 8,192 个输入 token,100+ 种语言 🎧 原生嵌入音频,无需 transcription 步骤 📐 灵活的输出维度:3,072 / 1,536 / 768,通过 MRL 实现 📎 每次请求最多支持 6 张图像、120s 视频、180s 音频和 6 页 PDF
译自 X · 研究者一手 · 录于 二〇二六年五月八日