Gemini Embedding 2：首个原生全多模态嵌入模型

🎯 一句话版本

关于Gemini Embedding 2：首个原生全多模态嵌入模型的深度研究报告

> 来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

> 团队: Google DeepMind

> 模型名: gemini-embedding-2-preview

> 发布: 2026-03-10（Public Preview）

> API: Gemini API / Vertex AI

> 日期: 2026-03-12

📌 一句话总结

Google 发布的首个原生全多模态嵌入模型——将文本、图片、视频、音频、PDF 映射到同一个向量空间。不需要分别用不同模型（CLIP + Whisper + 文本嵌入），一个模型搞定所有模态的语义搜索和分类。

📊 关键规格

参数	值
输入模态	文本 + 图片 + 视频 + 音频 + PDF
文本上下文	8,192 tokens（上代 2,048，4倍提升）
图片	每请求最多 6 张（PNG/JPEG）
视频	最长 120 秒（MP4/MOV）
音频	原生处理（不需要先转文本）
PDF	最多 6 页
输出维度	128 → 3,072（Matryoshka 可缩放）
推荐维度	768（质量/存储平衡点）
多语言	100+ 语言
交叉模态	✅ 支持混合输入（如图片+文本同一请求）

💰 定价

模态	标准	批量（50% off）
文本	$0.20/M tokens	$0.10/M tokens
图片	$0.45/M tokens	$0.225/M tokens
音频	$6.50/M tokens	$3.25/M tokens
视频	$12.00/M tokens	$6.00/M tokens

vs 竞品定价

模型	价格/M tokens	输入上限	维度	多模态
Gemini Embedding 2	$0.20	8,192	128-3,072	✅ 5 种模态
Gemini Embedding 001	$0.15	2,048	768-3,072	❌ 纯文本
OpenAI text-embedding-3-large	$0.13	8,191	256-3,072	❌ 纯文本
OpenAI text-embedding-3-small	$0.02	8,191	512-1,536	❌ 纯文本
Voyage Multimodal 3.5	$0.06-0.18	—	—	部分多模态

纯文本场景：OpenAI text-embedding-3-small 便宜 10 倍。

多模态场景：Gemini Embedding 2 没有真正竞品——OpenAI 没有多模态嵌入模型。

📈 Benchmark

任务	指标	得分
MTEB（文本）	—	67.99-68.17
MTEB 多语言	—	69.9
MTEB Code	—	84.0
MSR-VTT（文本→视频）	ndcg@10	68.0
MSEB（语音→文本）	mrr@10	73.9

在视频检索（Vatex/MSR-VTT/Youcook2）上大幅领先所有竞品。图像任务上与 Voyage Multimodal 3.5 竞争。

🔧 技术特点

Matryoshka Representation Learning（MRL）

"套娃"表示学习——信息从高维到低维嵌套，可以动态缩放输出维度。

实测：768 维和 3,072 维的 MTEB 得分差异极小（67.99 vs 68.17），但存储只需 1/4。

存储换算：

100 万向量 × 3,072 维 × float32 = 12 GB
100 万向量 × 768 维 × float32 = 3 GB（推荐）

原生交叉模态理解

不是"各模态分别编码后拼接"，而是原生理解交叉输入——可以在同一请求中传入图片+文本，模型理解两者之间的复杂关系。

代码示例


from google import genai

client = genai.Client()

result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        types.Part.from_bytes(data=audio_bytes, mime_type="audio/mpeg"),
    ],
)

💡 分析

为什么是里程碑

1. 真正的全模态统一：之前做多模态搜索需要 CLIP（图）+ Whisper（音）+ text-embedding（文）+ 手动对齐向量空间。现在一个 API 调用搞定

2. 视频嵌入：这是目前市场上极少有的视频原生嵌入支持

3. 音频无需转录：直接嵌入音频，不需要先 ASR → 再文本嵌入

4. MRL 灵活维度：768 维就能获得接近满分的质量，存储成本降 4 倍

局限

1. 纯文本贵：$0.20/M 比 OpenAI small 贵 10 倍——如果只做文本搜索不值得

2. 音视频极贵：音频 $6.50/M、视频 $12.00/M——大规模使用成本高

3. Preview 状态：还在 Public Preview，可能有变动

4. 视频限制：120 秒上限，长视频需要分段

🔗 与我们的关联

直接影响

1. OpenClaw memory_search：我们目前用 OpenAI text-embedding-3-small 做语义搜索。Gemini Embedding 2 的文本质量更高但贵 10 倍——暂时不值得切换

2. 深度研究：如果未来要做图片/视频/音频的语义检索（比如搜索播客内容、视频片段），Gemini Embedding 2 是唯一选择

3. RAG 管线：8K token 输入 = 更大的 chunk → 更少的分段 → 更好的检索质量

🔓 开源状态与替代方案

开源了吗？

没有。 Gemini Embedding 2 是纯闭源 API 服务：

❌ 没有模型权重发布
❌ 没有技术论文
❌ 没有 HuggingFace 发布
❌ Google 的嵌入模型一直闭源（包括 gemini-embedding-001）

开源多模态嵌入替代方案

模型	模态	开源	参数量	特点
Jina Embeddings v4	文本+图片+PDF	✅ Apache-2.0	2B	2026 最强开源多模态嵌入，支持 MRL 维度缩放
Nomic Embed Multimodal	文本+图片+PDF+图表	✅ Apache-2.0	—	PDF/图表原生理解，Matryoshka 支持
Jina CLIP v2	文本+图片	✅ Apache-2.0	885M	双编码器架构，文本+图像统一空间
ImageBind（Meta）	文本+图片+视频+音频+深度+热力	✅ MIT	1.2B	6 模态统一——最接近 Gemini Embedding 2，但 2023 年发布，较旧
BGE-M3	纯文本	✅ MIT	568M	多语言 + 多粒度 + 多功能（Dense+Sparse+ColBERT）
Nomic Embed Text v1.5	纯文本	✅ Apache-2.0	137M	轻量高效，MRL 支持
GTE-Qwen2	纯文本	✅ Apache-2.0	7B	阿里，MTEB 文本榜第一梯队

关键对比

维度	Gemini Embedding 2	ImageBind（最接近的开源替代）
模态	5（文本/图/视频/音频/PDF）	6（文本/图/视频/音频/深度/热力）
质量	SOTA（2026）	2023 水平，已过时
维度	128-3,072（MRL）	1,024（固定）
文本上下文	8,192 tokens	短文本
交叉模态	✅ 原生混合输入	✅ 统一空间
本地部署	❌	✅
成本	$0.20/M+	免费（需 GPU）

现实建议

纯文本：用开源 BGE-M3 或 Nomic Embed Text（免费、本地部署、质量够用）

文本+图片：用 Jina Embeddings v4 或 Nomic Embed Multimodal

需要视频/音频：目前没有高质量开源替代，ImageBind 太旧——只能用 Gemini Embedding 2 或等开源社区跟进

📊 评分

维度	评分（/10）
创新性	9.5 — 首个真正的全模态统一嵌入
技术深度	9.0 — MRL + 原生交叉模态 + 5 种输入
实用价值	8.0 — 多模态场景强，纯文本场景太贵
定价	6.5 — 文本比 OpenAI 贵 10x，音视频极贵
生态集成	9.0 — LangChain/LlamaIndex/Weaviate/ChromaDB 全支持
综合	8.4

报告由深度研究助手自动生成 | 2026-03-12

来源: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估