Gemini Embedding 2:首个原生全多模态嵌入模型
> 来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
> 团队: Google DeepMind
> 模型名: gemini-embedding-2-preview
> 发布: 2026-03-10(Public Preview)
> API: Gemini API / Vertex AI
> 日期: 2026-03-12
📌 一句话总结
Google 发布的首个原生全多模态嵌入模型——将文本、图片、视频、音频、PDF 映射到同一个向量空间。不需要分别用不同模型(CLIP + Whisper + 文本嵌入),一个模型搞定所有模态的语义搜索和分类。
📊 关键规格
| 参数 | 值 |
|---|---|
| 输入模态 | **文本 + 图片 + 视频 + 音频 + PDF** |
| 文本上下文 | 8,192 tokens(上代 2,048,4倍提升) |
| 图片 | 每请求最多 6 张(PNG/JPEG) |
| 视频 | 最长 120 秒(MP4/MOV) |
| 音频 | 原生处理(不需要先转文本) |
| 最多 6 页 | |
| 输出维度 | 128 → 3,072(Matryoshka 可缩放) |
| 推荐维度 | 768(质量/存储平衡点) |
| 多语言 | 100+ 语言 |
| 交叉模态 | ✅ 支持混合输入(如图片+文本同一请求) |
💰 定价
| 模态 | 标准 | 批量(50% off) |
|---|---|---|
| 文本 | $0.20/M tokens | $0.10/M tokens |
| 图片 | $0.45/M tokens | $0.225/M tokens |
| 音频 | $6.50/M tokens | $3.25/M tokens |
| 视频 | $12.00/M tokens | $6.00/M tokens |
vs 竞品定价
| 模型 | 价格/M tokens | 输入上限 | 维度 | 多模态 |
|---|---|---|---|---|
| **Gemini Embedding 2** | $0.20 | 8,192 | 128-3,072 | ✅ 5 种模态 |
| Gemini Embedding 001 | $0.15 | 2,048 | 768-3,072 | ❌ 纯文本 |
| OpenAI text-embedding-3-large | $0.13 | 8,191 | 256-3,072 | ❌ 纯文本 |
| OpenAI text-embedding-3-small | **$0.02** | 8,191 | 512-1,536 | ❌ 纯文本 |
| Voyage Multimodal 3.5 | $0.06-0.18 | — | — | 部分多模态 |
纯文本场景:OpenAI text-embedding-3-small 便宜 10 倍。
多模态场景:Gemini Embedding 2 没有真正竞品——OpenAI 没有多模态嵌入模型。
📈 Benchmark
| 任务 | 指标 | 得分 |
|---|---|---|
| MTEB(文本) | — | 67.99-68.17 |
| MTEB 多语言 | — | **69.9** |
| MTEB Code | — | **84.0** |
| MSR-VTT(文本→视频) | ndcg@10 | **68.0** |
| MSEB(语音→文本) | mrr@10 | **73.9** |
在视频检索(Vatex/MSR-VTT/Youcook2)上大幅领先所有竞品。图像任务上与 Voyage Multimodal 3.5 竞争。
🔧 技术特点
Matryoshka Representation Learning(MRL)
"套娃"表示学习——信息从高维到低维嵌套,可以动态缩放输出维度。
实测:768 维和 3,072 维的 MTEB 得分差异极小(67.99 vs 68.17),但存储只需 1/4。
存储换算:
- 100 万向量 × 3,072 维 × float32 = 12 GB
- 100 万向量 × 768 维 × float32 = 3 GB(推荐)
原生交叉模态理解
不是"各模态分别编码后拼接",而是原生理解交叉输入——可以在同一请求中传入图片+文本,模型理解两者之间的复杂关系。
代码示例
from google import genai
client = genai.Client()
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
types.Part.from_bytes(data=audio_bytes, mime_type="audio/mpeg"),
],
)
💡 分析
为什么是里程碑
1. 真正的全模态统一:之前做多模态搜索需要 CLIP(图)+ Whisper(音)+ text-embedding(文)+ 手动对齐向量空间。现在一个 API 调用搞定
2. 视频嵌入:这是目前市场上极少有的视频原生嵌入支持
3. 音频无需转录:直接嵌入音频,不需要先 ASR → 再文本嵌入
4. MRL 灵活维度:768 维就能获得接近满分的质量,存储成本降 4 倍
局限
1. 纯文本贵:$0.20/M 比 OpenAI small 贵 10 倍——如果只做文本搜索不值得
2. 音视频极贵:音频 $6.50/M、视频 $12.00/M——大规模使用成本高
3. Preview 状态:还在 Public Preview,可能有变动
4. 视频限制:120 秒上限,长视频需要分段
🔗 与我们的关联
直接影响
1. OpenClaw memory_search:我们目前用 OpenAI text-embedding-3-small 做语义搜索。Gemini Embedding 2 的文本质量更高但贵 10 倍——暂时不值得切换
2. 深度研究:如果未来要做图片/视频/音频的语义检索(比如搜索播客内容、视频片段),Gemini Embedding 2 是唯一选择
3. RAG 管线:8K token 输入 = 更大的 chunk → 更少的分段 → 更好的检索质量
推荐策略
- 纯文本场景:继续用 OpenAI text-embedding-3-small($0.02,够用)
- 需要多模态搜索时:切换到 Gemini Embedding 2
- 推荐维度:768(质量几乎无损,存储 1/4)
🔓 开源状态与替代方案
开源了吗?
没有。 Gemini Embedding 2 是纯闭源 API 服务:
- ❌ 没有模型权重发布
- ❌ 没有技术论文
- ❌ 没有 HuggingFace 发布
- ❌ Google 的嵌入模型一直闭源(包括 gemini-embedding-001)
开源多模态嵌入替代方案
| 模型 | 模态 | 开源 | 参数量 | 特点 |
|---|---|---|---|---|
| **Jina Embeddings v4** | 文本+图片+PDF | ✅ Apache-2.0 | 2B | 2026 最强开源多模态嵌入,支持 MRL 维度缩放 |
| **Nomic Embed Multimodal** | 文本+图片+PDF+图表 | ✅ Apache-2.0 | — | PDF/图表原生理解,Matryoshka 支持 |
| **Jina CLIP v2** | 文本+图片 | ✅ Apache-2.0 | 885M | 双编码器架构,文本+图像统一空间 |
| **ImageBind**(Meta) | 文本+图片+视频+音频+深度+热力 | ✅ MIT | 1.2B | **6 模态**统一——最接近 Gemini Embedding 2,但 2023 年发布,较旧 |
| **BGE-M3** | 纯文本 | ✅ MIT | 568M | 多语言 + 多粒度 + 多功能(Dense+Sparse+ColBERT) |
| **Nomic Embed Text v1.5** | 纯文本 | ✅ Apache-2.0 | 137M | 轻量高效,MRL 支持 |
| **GTE-Qwen2** | 纯文本 | ✅ Apache-2.0 | 7B | 阿里,MTEB 文本榜第一梯队 |
关键对比
| 维度 | Gemini Embedding 2 | ImageBind(最接近的开源替代) |
|---|---|---|
| 模态 | 5(文本/图/视频/音频/PDF) | **6**(文本/图/视频/音频/深度/热力) |
| 质量 | SOTA(2026) | 2023 水平,已过时 |
| 维度 | 128-3,072(MRL) | 1,024(固定) |
| 文本上下文 | 8,192 tokens | 短文本 |
| 交叉模态 | ✅ 原生混合输入 | ✅ 统一空间 |
| 本地部署 | ❌ | ✅ |
| 成本 | $0.20/M+ | 免费(需 GPU) |
现实建议
纯文本:用开源 BGE-M3 或 Nomic Embed Text(免费、本地部署、质量够用)
文本+图片:用 Jina Embeddings v4 或 Nomic Embed Multimodal
需要视频/音频:目前没有高质量开源替代,ImageBind 太旧——只能用 Gemini Embedding 2 或等开源社区跟进
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 创新性 | 9.5 — 首个真正的全模态统一嵌入 |
| 技术深度 | 9.0 — MRL + 原生交叉模态 + 5 种输入 |
| 实用价值 | 8.0 — 多模态场景强,纯文本场景太贵 |
| 定价 | 6.5 — 文本比 OpenAI 贵 10x,音视频极贵 |
| 生态集成 | 9.0 — LangChain/LlamaIndex/Weaviate/ChromaDB 全支持 |
| **综合** | **8.4** |
报告由深度研究助手自动生成 | 2026-03-12
来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/