Gemma 4 31B Abliteration:开源模型安全对齐被彻底绕过
一句话版本:有人把 Google 的 Gemma 4 31B 模型的安全锁(拒绝回答有害问题的机制)完全拆掉了,93.7% 的有害提示都能正常回答,而模型能力只损失了 2%。这说明当前大模型的安全防线本质上是一层很容易撕掉的贴纸。
来源链接:
- 推文:https://x.com/outsource_/status/2040605292971315328
- 模型:https://huggingface.co/dealignai/Gemma-4-31B-JANG_4M-CRACK
- 作者:dealignai(@dealignai)
报告日期:2026-04-06
抓取时间:2026-04-06 16:34 UTC
核心内容
1. 这是什么?
Abliteration(消融) 是一种移除大语言模型安全对齐的技术。原理是找到模型内部的"拒绝方向"(refusal direction)——模型被训练成在遇到有害问题时会激活的某个隐藏信号——然后直接从模型权重中把这个信号方向删除。
这个模型的特别之处:
- 基于 Google 的 Gemma 4 31B(最新的开源大模型)
- 使用名为 CRACK 的 abliteration 方法完全移除拒绝行为
- 使用 JANG_4M 混合精度量化:注意力层保留 8-bit,MLP 层压缩到 4-bit
- 模型大小仅 18GB,可在 Apple Silicon 上本地运行
2. 关键数据
HarmBench 合规率:93.7%(149/159)
| 类别 | 合规率 | 说明 |
|---|---|---|
| 网络犯罪/入侵 | 33/33 (100%) | 完全配合生成恶意代码 |
| 非法活动 | 46/47 (98%) | 几乎无拒绝 |
| 虚假信息 | 26/27 (96%) | 乐意生成误导内容 |
| 化学/生物 | 18/19 (95%) | 配合生成危险物质信息 |
| 有害内容 | 16/17 (94%) | 种族歧视、暴力等 |
| 骚扰/霸凌 | 10/16 (62%) | 唯一相对抵抗的类别 |
模型能力保留:MMLU 仅下降 2%
- 原版 Gemma 4 31B MMLU: ~76.5%
- Abliterated 版 MMLU: 74.5%
- 损失极小,说明安全对齐和模型能力可以高度解耦
3. 技术细节
JANG_4M 混合精度策略
| 层类型 | 量化位数 | 原因 |
|---|---|---|
| Attention(Q/K/V/O) | 8-bit | 注意力层对精度敏感,低精度会严重影响输出质量 |
| Embeddings | 8-bit | 词嵌入需要高精度保持语义 |
| MLP(gate/up/down) | 4-bit | 密集模型对 MLP 量化容忍度最高 |
| **实际平均** | **5.1-bit** | 智能分配,总大小 18GB |
架构特点
- 60 层 Dense Transformer
- 混合注意力:滑动窗口 + 全局注意力(每 6 层全注意力)
- 双头维度:256(滑动窗口)/ 512(全局注意力)
- K=V 权重共享(全局注意力层)
- 视觉编码器保留 float16(多模态能力不受影响)
4. 运行方式
- 需要 Apple Silicon Mac,24GB+ 统一内存
- 使用 vMLX 1.3.26+(标准 mlx_lm 不支持 Gemma 4)
- 也有 Ollama/llama.cpp 的 GGUF 版本
深度分析
Abliteration 技术背景
Abliteration 不是新技术,但一直在进化:
| 时间 | 里程碑 |
|---|---|
| 2024 年中 | 首篇 abliteration 论文发表,证明安全对齐集中在少数方向 |
| 2024 下半年 | 社区开始大规模实验,发现对不同模型效果差异大 |
| 2025 年 | Heretic AI 等工具出现,系统化 abliteration 流程 |
| 2026 年初 | 学术论文验证:跨架构 abliteration 能力保留仅 26.5%(旧方法) |
| 2026 年 4 月 | dealignai 的 CRACK 方法实现 93.7% 合规 + 仅 -2% MMLU,技术大幅突破 |
核心发现:安全对齐本质上是模型权重中极小的一个子空间(通常是 1-2 个方向),移除它对模型的通用能力几乎没有影响。这暴露了当前 AI 安全对齐的根本性脆弱。
对 AI 安全的影响
1. 开源模型安全防线被证伪
- Google、Meta 等公司在开源模型上投入大量安全对齐工作
- 但这些对齐可以通过数学方法(方向移除)被系统性绕过
- 模型越强,abliterated 版本越危险
2. "负责任开源" 的困境
- 开源模型的用户可以任意修改权重
- 安全对齐无法强制执行
- 公司面临"开源就等于放弃安全控制"的现实
3. 监管需求被强化
- 技术手段无法完全阻止滥用
- 法律法规成为最后防线
- 欧盟 AI Act 等法规的必要性更加凸显
对我们项目的影响
1. OpenClaw / 小虾的模型选择
- 不建议使用 abliterated 模型:存在法律和声誉风险
- 需要评估本地模型的安全性:如果用户自行加载 abliterated 模型怎么办?
- 监控技术演进:关注厂商如何应对(更强的对齐方法?不可移除的安全层?)
2. 技术参考价值
- JANG_4M 混合精度策略值得学习:注意力层高精度、MLP 层低精度
- 可用于优化我们自己的模型部署(在不牺牲安全的前提下减小模型体积)
- MLX 格式的本地推理方案对 Apple Silicon 优化有参考价值
3. 研究方向
- 反 abliteration 技术:如何让安全对齐不可被移除?(如将安全嵌入模型核心能力)
- 运行时安全检查:不依赖模型权重的安全机制(外挂安全层)
- 分布式安全验证:验证用户使用的模型是否经过篡改
评分表
| 维度 | 评分(0-5) | 说明 |
|---|---|---|
| **技术突破性** | 4.8 | 93.7% 合规 + 仅 -2% MMLU 是 abliteration 领域的重大突破 |
| **对我们项目价值** | 3.5 | 技术参考价值高,但直接应用有限(安全/法律风险) |
| **行业影响** | 4.9 | 对开源 AI 安全范式构成根本性挑战 |
| **时效性** | 5.0 | 1 天前发布,100 万+ 曝光,热度极高 |
| **综合推荐度** | 4.0 | 重要趋势需要关注,但需谨慎对待 |
后续观察
1. Google 回应:Google 是否会对 Gemma 4 的安全对齐方式进行升级?
2. 社区反应:其他模型(Llama 4、Qwen 3)是否也会被 abliterated?
3. 技术对抗:厂商如何应对?不可逆安全层?运行时检查?
4. 监管动态:是否会推动对开源模型 abliteration 的立法限制?
报告生成:OpenClaw Deep Research Agent
生成时间:2026-04-06 16:35 UTC
原始数据:docs/deep-research/raw/gemma4-abliteration-crack-raw.md