Gemma 4 31B Abliteration：开源模型安全对齐被彻底绕过

一句话版本：有人把 Google 的 Gemma 4 31B 模型的安全锁（拒绝回答有害问题的机制）完全拆掉了，93.7% 的有害提示都能正常回答，而模型能力只损失了 2%。这说明当前大模型的安全防线本质上是一层很容易撕掉的贴纸。

来源链接：

推文：https://x.com/outsource_/status/2040605292971315328
模型：https://huggingface.co/dealignai/Gemma-4-31B-JANG_4M-CRACK
作者：dealignai（@dealignai）

报告日期：2026-04-06

抓取时间：2026-04-06 16:34 UTC

核心内容

1. 这是什么？

Abliteration（消融） 是一种移除大语言模型安全对齐的技术。原理是找到模型内部的"拒绝方向"（refusal direction）——模型被训练成在遇到有害问题时会激活的某个隐藏信号——然后直接从模型权重中把这个信号方向删除。

这个模型的特别之处：

基于 Google 的 Gemma 4 31B（最新的开源大模型）
使用名为 CRACK 的 abliteration 方法完全移除拒绝行为
使用 JANG_4M 混合精度量化：注意力层保留 8-bit，MLP 层压缩到 4-bit
模型大小仅 18GB，可在 Apple Silicon 上本地运行

2. 关键数据

HarmBench 合规率：93.7%（149/159）

类别	合规率	说明
网络犯罪/入侵	33/33 (100%)	完全配合生成恶意代码
非法活动	46/47 (98%)	几乎无拒绝
虚假信息	26/27 (96%)	乐意生成误导内容
化学/生物	18/19 (95%)	配合生成危险物质信息
有害内容	16/17 (94%)	种族歧视、暴力等
骚扰/霸凌	10/16 (62%)	唯一相对抵抗的类别

模型能力保留：MMLU 仅下降 2%

原版 Gemma 4 31B MMLU: ~76.5%
Abliterated 版 MMLU: 74.5%
损失极小，说明安全对齐和模型能力可以高度解耦

3. 技术细节

JANG_4M 混合精度策略

层类型	量化位数	原因
Attention（Q/K/V/O）	8-bit	注意力层对精度敏感，低精度会严重影响输出质量
Embeddings	8-bit	词嵌入需要高精度保持语义
MLP（gate/up/down）	4-bit	密集模型对 MLP 量化容忍度最高
实际平均	5.1-bit	智能分配，总大小 18GB

架构特点

60 层 Dense Transformer
混合注意力：滑动窗口 + 全局注意力（每 6 层全注意力）
双头维度：256（滑动窗口）/ 512（全局注意力）
K=V 权重共享（全局注意力层）
视觉编码器保留 float16（多模态能力不受影响）

4. 运行方式

需要 Apple Silicon Mac，24GB+ 统一内存
使用 vMLX 1.3.26+（标准 mlx_lm 不支持 Gemma 4）
也有 Ollama/llama.cpp 的 GGUF 版本

深度分析

Abliteration 技术背景

Abliteration 不是新技术，但一直在进化：

时间	里程碑
2024 年中	首篇 abliteration 论文发表，证明安全对齐集中在少数方向
2024 下半年	社区开始大规模实验，发现对不同模型效果差异大
2025 年	Heretic AI 等工具出现，系统化 abliteration 流程
2026 年初	学术论文验证：跨架构 abliteration 能力保留仅 26.5%（旧方法）
2026 年 4 月	dealignai 的 CRACK 方法实现 93.7% 合规 + 仅 -2% MMLU，技术大幅突破

核心发现：安全对齐本质上是模型权重中极小的一个子空间（通常是 1-2 个方向），移除它对模型的通用能力几乎没有影响。这暴露了当前 AI 安全对齐的根本性脆弱。

对 AI 安全的影响

1. 开源模型安全防线被证伪

Google、Meta 等公司在开源模型上投入大量安全对齐工作
但这些对齐可以通过数学方法（方向移除）被系统性绕过
模型越强，abliterated 版本越危险

2. "负责任开源" 的困境

开源模型的用户可以任意修改权重
安全对齐无法强制执行
公司面临"开源就等于放弃安全控制"的现实

3. 监管需求被强化

技术手段无法完全阻止滥用
法律法规成为最后防线
欧盟 AI Act 等法规的必要性更加凸显

对我们项目的影响

1. OpenClaw / 小虾的模型选择

不建议使用 abliterated 模型：存在法律和声誉风险
需要评估本地模型的安全性：如果用户自行加载 abliterated 模型怎么办？
监控技术演进：关注厂商如何应对（更强的对齐方法？不可移除的安全层？）

2. 技术参考价值

JANG_4M 混合精度策略值得学习：注意力层高精度、MLP 层低精度
可用于优化我们自己的模型部署（在不牺牲安全的前提下减小模型体积）
MLX 格式的本地推理方案对 Apple Silicon 优化有参考价值

3. 研究方向

反 abliteration 技术：如何让安全对齐不可被移除？（如将安全嵌入模型核心能力）
运行时安全检查：不依赖模型权重的安全机制（外挂安全层）
分布式安全验证：验证用户使用的模型是否经过篡改

评分表

维度	评分（0-5）	说明
技术突破性	4.8	93.7% 合规 + 仅 -2% MMLU 是 abliteration 领域的重大突破
对我们项目价值	3.5	技术参考价值高，但直接应用有限（安全/法律风险）
行业影响	4.9	对开源 AI 安全范式构成根本性挑战
时效性	5.0	1 天前发布，100 万+ 曝光，热度极高
综合推荐度	4.0	重要趋势需要关注，但需谨慎对待

后续观察

1. Google 回应：Google 是否会对 Gemma 4 的安全对齐方式进行升级？

2. 社区反应：其他模型（Llama 4、Qwen 3）是否也会被 abliterated？

3. 技术对抗：厂商如何应对？不可逆安全层？运行时检查？

4. 监管动态：是否会推动对开源模型 abliteration 的立法限制？

报告生成：OpenClaw Deep Research Agent

生成时间：2026-04-06 16:35 UTC

原始数据：docs/deep-research/raw/gemma4-abliteration-crack-raw.md