一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@_philschmid Gemini Embedding 2 现已 GA!一个能理解文本…

@_philschmid Gemini Embedding 2 now GA! One embedding model that understand tex…

二〇二六年五月八日 · 英文原文

Gemini Embedding 2 已 GA,支持文本、图像、视频、音频和 PDF 在统一 embedding space 中表示,最多 8,192 输入 token、100+ 语言,音频可原生嵌入;通过 MRL 提供 3,072/1,536/768 输出维度,单次请求支持 6 图、120s 视频、180s 音频和 6 页 PDF。

Gemini Embedding 2 现已 GA!一个 embedding model 可理解文本、图像、视频、音频和 PDF!

🖼️ 5 种 modality 位于同一个统一的 embedding space 中 🌍 支持最多 8,192 个输入 token,100+ 种语言 🎧 原生嵌入音频,无需 transcription 步骤 📐 灵活的输出维度:3,072 / 1,536 / 768,通过 MRL 实现 📎 每次请求最多支持 6 张图像、120s 视频、180s 音频和 6 页 PDF

https://t.co/AS8BcZF5UW

译自 X · 研究者一手 · 录于 二〇二六年五月八日