Gemini Embedding 2:首个原生全多模态嵌入模型

> 来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

> 团队: Google DeepMind

> 模型名: gemini-embedding-2-preview

> 发布: 2026-03-10(Public Preview)

> API: Gemini API / Vertex AI

> 日期: 2026-03-12

📌 一句话总结

Google 发布的首个原生全多模态嵌入模型——将文本、图片、视频、音频、PDF 映射到同一个向量空间。不需要分别用不同模型(CLIP + Whisper + 文本嵌入),一个模型搞定所有模态的语义搜索和分类。

📊 关键规格

参数
输入模态**文本 + 图片 + 视频 + 音频 + PDF**
文本上下文8,192 tokens(上代 2,048,4倍提升)
图片每请求最多 6 张(PNG/JPEG)
视频最长 120 秒(MP4/MOV)
音频原生处理(不需要先转文本)
PDF最多 6 页
输出维度128 → 3,072(Matryoshka 可缩放)
推荐维度768(质量/存储平衡点)
多语言100+ 语言
交叉模态✅ 支持混合输入(如图片+文本同一请求)

💰 定价

模态标准批量(50% off)
文本$0.20/M tokens$0.10/M tokens
图片$0.45/M tokens$0.225/M tokens
音频$6.50/M tokens$3.25/M tokens
视频$12.00/M tokens$6.00/M tokens

vs 竞品定价

模型价格/M tokens输入上限维度多模态
**Gemini Embedding 2**$0.208,192128-3,072✅ 5 种模态
Gemini Embedding 001$0.152,048768-3,072❌ 纯文本
OpenAI text-embedding-3-large$0.138,191256-3,072❌ 纯文本
OpenAI text-embedding-3-small**$0.02**8,191512-1,536❌ 纯文本
Voyage Multimodal 3.5$0.06-0.18部分多模态

纯文本场景:OpenAI text-embedding-3-small 便宜 10 倍。

多模态场景:Gemini Embedding 2 没有真正竞品——OpenAI 没有多模态嵌入模型。

📈 Benchmark

任务指标得分
MTEB(文本)67.99-68.17
MTEB 多语言**69.9**
MTEB Code**84.0**
MSR-VTT(文本→视频)ndcg@10**68.0**
MSEB(语音→文本)mrr@10**73.9**

在视频检索(Vatex/MSR-VTT/Youcook2)上大幅领先所有竞品。图像任务上与 Voyage Multimodal 3.5 竞争。

🔧 技术特点

Matryoshka Representation Learning(MRL)

"套娃"表示学习——信息从高维到低维嵌套,可以动态缩放输出维度。

实测:768 维和 3,072 维的 MTEB 得分差异极小(67.99 vs 68.17),但存储只需 1/4。

存储换算

原生交叉模态理解

不是"各模态分别编码后拼接",而是原生理解交叉输入——可以在同一请求中传入图片+文本,模型理解两者之间的复杂关系。

代码示例


from google import genai

client = genai.Client()

result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        types.Part.from_bytes(data=audio_bytes, mime_type="audio/mpeg"),
    ],
)

💡 分析

为什么是里程碑

1. 真正的全模态统一:之前做多模态搜索需要 CLIP(图)+ Whisper(音)+ text-embedding(文)+ 手动对齐向量空间。现在一个 API 调用搞定

2. 视频嵌入:这是目前市场上极少有的视频原生嵌入支持

3. 音频无需转录:直接嵌入音频,不需要先 ASR → 再文本嵌入

4. MRL 灵活维度:768 维就能获得接近满分的质量,存储成本降 4 倍

局限

1. 纯文本贵:$0.20/M 比 OpenAI small 贵 10 倍——如果只做文本搜索不值得

2. 音视频极贵:音频 $6.50/M、视频 $12.00/M——大规模使用成本高

3. Preview 状态:还在 Public Preview,可能有变动

4. 视频限制:120 秒上限,长视频需要分段

🔗 与我们的关联

直接影响

1. OpenClaw memory_search:我们目前用 OpenAI text-embedding-3-small 做语义搜索。Gemini Embedding 2 的文本质量更高但贵 10 倍——暂时不值得切换

2. 深度研究:如果未来要做图片/视频/音频的语义检索(比如搜索播客内容、视频片段),Gemini Embedding 2 是唯一选择

3. RAG 管线:8K token 输入 = 更大的 chunk → 更少的分段 → 更好的检索质量

推荐策略

🔓 开源状态与替代方案

开源了吗?

没有。 Gemini Embedding 2 是纯闭源 API 服务:

开源多模态嵌入替代方案

模型模态开源参数量特点
**Jina Embeddings v4**文本+图片+PDF✅ Apache-2.02B2026 最强开源多模态嵌入,支持 MRL 维度缩放
**Nomic Embed Multimodal**文本+图片+PDF+图表✅ Apache-2.0PDF/图表原生理解,Matryoshka 支持
**Jina CLIP v2**文本+图片✅ Apache-2.0885M双编码器架构,文本+图像统一空间
**ImageBind**(Meta)文本+图片+视频+音频+深度+热力✅ MIT1.2B**6 模态**统一——最接近 Gemini Embedding 2,但 2023 年发布,较旧
**BGE-M3**纯文本✅ MIT568M多语言 + 多粒度 + 多功能(Dense+Sparse+ColBERT)
**Nomic Embed Text v1.5**纯文本✅ Apache-2.0137M轻量高效,MRL 支持
**GTE-Qwen2**纯文本✅ Apache-2.07B阿里,MTEB 文本榜第一梯队

关键对比

维度Gemini Embedding 2ImageBind(最接近的开源替代)
模态5(文本/图/视频/音频/PDF)**6**(文本/图/视频/音频/深度/热力)
质量SOTA(2026)2023 水平,已过时
维度128-3,072(MRL)1,024(固定)
文本上下文8,192 tokens短文本
交叉模态✅ 原生混合输入✅ 统一空间
本地部署
成本$0.20/M+免费(需 GPU)

现实建议

纯文本:用开源 BGE-M3 或 Nomic Embed Text(免费、本地部署、质量够用)

文本+图片:用 Jina Embeddings v4 或 Nomic Embed Multimodal

需要视频/音频目前没有高质量开源替代,ImageBind 太旧——只能用 Gemini Embedding 2 或等开源社区跟进

📊 评分

维度评分(/10)
创新性9.5 — 首个真正的全模态统一嵌入
技术深度9.0 — MRL + 原生交叉模态 + 5 种输入
实用价值8.0 — 多模态场景强,纯文本场景太贵
定价6.5 — 文本比 OpenAI 贵 10x,音视频极贵
生态集成9.0 — LangChain/LlamaIndex/Weaviate/ChromaDB 全支持
**综合****8.4**

报告由深度研究助手自动生成 | 2026-03-12

来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/