Speech2SRT Skills — 音频降噪/人声分离/转文字,三个 Claude Code Skill
> 一句话版本:三个 Claude Code 技能——一键降噪、一键提取人声、一键转字幕。跑在 Modal GPU 上,免费额度每月能处理 93+ 小时音频。
| 项目 | 信息 | |
|---|---|---|
| 来源 | https://github.com/speech2srt/skills | |
| 创建时间 | 2026-04-08 | |
| Stars | 4 | Forks 0 |
| 语言 | Python | |
| 许可证 | Apache 2.0 | |
| 底层技术 | MossFormer2 + Demucs + faster-whisper | |
| 运行环境 | Modal (L4 GPU) |
核心内容
三个 Skill
1. speech-denoise — 音频降噪
denoise these files: /path/to/file1.m4a, /path/to/file2.wav
- 去除空调声、交通噪音、电流干扰、前置放大器嗡嗡声
- 底层:MossFormer2 (ClearerVoice-Studio)
- 支持格式:m4a, mp3, mp4, wav, flac, ogg, aac, mov, avi
- 性能:17 分钟音频 → 80 秒处理(L4 GPU)
2. speech-isolate — 人声分离
- 从歌曲/录音中提取干净人声,去除背景音乐
- 底层:Demucs (Meta)
- 性能:5.8 分钟音频 → 135 秒处理
3. speech-transcribe — 语音转文字 + 字幕
- 比 Whisper 快 3 倍(faster-whisper),带句子级时间戳
- 输出:纯文本 (.txt) + 字幕 (.srt)
- 5 个模型可选:tiny/base/small/medium/large-v3
- 性能:6 分钟音频 → 22-73 秒(取决于模型大小)
安装
npx skills add speech2srt/skills
或者直接告诉 Agent:"install speech-denoise"
运行成本
| 资源 | 费用 |
|---|---|
| Modal L4 GPU | $0.80/小时 |
| Modal 免费额度 | $30/月(37 小时 L4) |
| 可处理音频量 | 93+ 小时/月(免费) |
技术栈
| Skill | 模型 | 来源 |
|---|---|---|
| denoise | MossFormer2 | ClearerVoice-Studio |
| isolate | Demucs (HTDemucs) | Meta Research |
| transcribe | faster-whisper | CTranslate2 加速的 Whisper |
分析
为什么有意思:
- Claude Code Skill 生态:不是独立 CLI,而是 Claude Code 的技能插件,Agent 原生调用
- 开箱即用:不需要自己搭 GPU 环境,Modal 冷启动 + 自动扩缩
- 免费额度慷慨:$30/月够一个人月使用量
- 完整音频处理流水线:降噪 → 人声分离 → 转字幕,三个 skill 串联就是一条生产线
局限:
- 极小项目:4 stars,8 天前创建,一个人做的
- 依赖 Modal:离不开 Modal 平台,没有本地运行选项
- 依赖 Claude Code:只能在 Claude Code 里用(通过 skills.sh/ClawHub)
- 没有 Web UI:纯命令行,非技术用户用不了
与 Jay 的关联:
- 播客处理:Jay 有 67 集播客(从 deploy 日志看到的),这三个 skill 可以自动化播客后期处理
- 与 OpenClaw 的关系:OpenClaw 也有 skill 生态(ClawHub),这个项目同时列出了 ClawHub 作为分发渠道
- snoreman 报告的延伸:之前研究的 snoreman 录音 app 如果加上降噪 skill,可以自动处理鼾声录音
- faster-whisper:OpenClaw 的 summarize 技能也用 Whisper 做转录,这里用的是 faster-whisper(CTranslate2 加速版),更快
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 实用性 | 8 | 音频处理三件套,刚需场景 |
| 易用性 | 8 | Claude Code 里一句话调用 |
| 技术选型 | 7 | MossFormer2 + Demucs + faster-whisper,都是各自领域最佳 |
| 项目成熟度 | 3 | 4 stars,8 天,一个人 |
| 与 Jay 的关联 | 7 | 播客处理直接可用 |
| **总分** | **6.6** | 想法好、技术选型对,但太早太新 |