深度研究:Taalas — 把 LLM "刻"进芯片
来源:
- https://www.anuragk.com/blog/posts/Taalas.html
- https://taalas.com/the-path-to-ubiquitous-ai/
日期: 2026-02-22
一句话总结
Taalas 把 Llama 3.1 8B 的权重直接蚀刻成硅片上的晶体管,实现 17,000 tokens/s 推理速度,比 GPU 快 10 倍、便宜 20 倍、功耗低 10 倍。
核心技术
GPU 推理的瓶颈(冯·诺依曼之墙)
传统 GPU 推理流程(以 Llama 3.1 8B 的 32 层为例):
1. 从 VRAM 加载 Layer 1 权重 → 计算 → 存回 VRAM
2. 从 VRAM 加载 Layer 2 权重 + 上一步结果 → 计算 → 存回
3. 重复 32 次生成一个 token
4. 下一个 token 再来 32 次
瓶颈:数据在计算核心和显存之间反复搬运 → 延迟 + 耗电 = "内存墙"
Taalas 的解法:存算一体
- 32 层权重 直接蚀刻为物理晶体管 排列在芯片上
- 输入向量流入 Layer 1 晶体管 → 电信号直接流向 Layer 2 → ... → Layer 32
- 没有外部 DRAM/HBM,数据不需要搬运
- 少量片上 SRAM 用于 KV Cache(对话上下文)和 LoRA 适配器
"魔法乘法器"
声称发明了一种硬件方案:单个晶体管 同时存储 4-bit 数据并完成相关乘法运算。
换模型怎么办?
- 设计了通用底座芯片(大规模逻辑门阵列)
- 换模型只需定制 顶部两层金属掩模
- 从新模型到硅片:2 个月(芯片界极快,AI 界极慢)
产品数据
HC1(第一代,已发布)
| 指标 | Taalas HC1 | GPU (H200) | 对比 |
|---|---|---|---|
| 速度 | 17,000 tok/s/user | ~1,700 tok/s | **10x** |
| 建造成本 | - | - | Taalas **20x 更便宜** |
| 功耗 | - | - | **10x 更低** |
| 模型 | Llama 3.1 8B (3/6-bit quant) | - | 有质量损失 |
- 无需 HBM、3D 堆叠、液冷、高速 IO
- 已提供 chatbot demo (chatjimmy.ai) 和 API
路线图
| 产品 | 时间 | 内容 |
|---|---|---|
| HC1 #2 | 2026 春 | 中型推理 LLM |
| HC2 | 2026 冬 | 前沿 LLM,更高密度更快 |
HC2 采用标准 4-bit 浮点格式(第一代用了非标 3-bit)。
公司背景
- 成立 2.5 年
- 24 人团队,融资 $2 亿+,仅花了 $3000 万做出首款产品
- 创始人 Ljubisa Bajic,团队核心成员共事 20+ 年
- 定位"精确打击"而非"中世纪围城"
🔍 深度分析
为什么这很重要
17,000 tok/s = 每秒写 30 页 A4 纸。这不是渐进式改进,是量级跃迁。
如果这个数字站得住脚,意味着:
1. 实时 Agent — 毫秒级延迟让 AI agent 的决策循环接近实时
2. 端侧部署 — 不需要数据中心级基础设施,无液冷无 HBM
3. 成本暴降 — 20x 建造成本降低 = AI 推理可能变成水电一样的公用事业
局限和质疑
1. 模型锁定 — 一块芯片只能跑一个模型。AI 模型迭代速度是月级别的,芯片制造是月级别的。等芯片出来,模型可能已经过时了。
2. 量化损失 — 3/6-bit 激进量化有明显质量下降。他们自己也承认"introduces some quality degradations"。8B 模型本身就不是前沿。
3. 灵活性为零 — 无法更新权重、无法换模型架构。LoRA 微调是唯一灵活性。如果模型有 bug 或安全漏洞?换芯片。
4. 2 个月换代周期 — 在 AI 界很慢。DeepSeek R1 到 R2 可能几周就迭代。
5. 规模化存疑 — 8B 模型刻进一块芯片可行,400B 呢?芯片面积和成本如何 scale?
历史类比
文章用 ENIAC → 晶体管 → PC → 手机 的类比。更贴切的可能是:
- GPU 之于 AI ≈ 大型机之于计算 — 通用但贵
- ASIC 之于 AI ≈ 计算器之于数学 — 极致效率但功能单一
- 实际演化可能是两者共存:GPU 跑前沿大模型,ASIC 跑成熟小模型
与我们的关联
如果 Taalas 或类似技术成熟:
- 本地推理可能变成消费级硬件(像路由器一样插一块"AI 卡")
- OpenClaw 之类的 agent 框架可能直接跑在本地 ASIC 上
- 隐私问题迎刃而解——数据不出设备
竞品对比
| 公司 | 方案 | 速度 |
|---|---|---|
| Groq | LPU (SRAM-based) | ~800 tok/s |
| Cerebras | Wafer-scale | ~1,000+ tok/s |
| SambaNova | RDU | ~600 tok/s |
| **Taalas** | **硬刻 ASIC** | **17,000 tok/s** |
| NVIDIA H200 | GPU | ~1,700 tok/s |
总结:Taalas 用"把模型焊死在芯片里"的极端方式打破了内存墙,实现了 10x 性能跃迁。代价是完全丧失灵活性——一个芯片一个模型,不可更改。这是 AI 推理硬件的"CD-ROM 时刻":如果成熟模型像成熟软件一样标准化,专用芯片就有巨大市场;如果模型持续快速迭代,灵活性的缺失就是致命伤。$3000 万做出首款产品的效率令人印象深刻。值得持续关注。