Speech2SRT Skills — 音频降噪/人声分离/转文字,三个 Claude Code Skill

> 一句话版本:三个 Claude Code 技能——一键降噪、一键提取人声、一键转字幕。跑在 Modal GPU 上,免费额度每月能处理 93+ 小时音频。

项目信息
来源https://github.com/speech2srt/skills
创建时间2026-04-08
Stars4Forks 0
语言Python
许可证Apache 2.0
底层技术MossFormer2 + Demucs + faster-whisper
运行环境Modal (L4 GPU)

核心内容

三个 Skill

1. speech-denoise — 音频降噪


denoise these files: /path/to/file1.m4a, /path/to/file2.wav

2. speech-isolate — 人声分离

3. speech-transcribe — 语音转文字 + 字幕

安装


npx skills add speech2srt/skills

或者直接告诉 Agent:"install speech-denoise"

运行成本

资源费用
Modal L4 GPU$0.80/小时
Modal 免费额度$30/月(37 小时 L4)
可处理音频量93+ 小时/月(免费)

技术栈

Skill模型来源
denoiseMossFormer2ClearerVoice-Studio
isolateDemucs (HTDemucs)Meta Research
transcribefaster-whisperCTranslate2 加速的 Whisper

分析

为什么有意思

局限

与 Jay 的关联

评分

维度评分 (1-10)说明
实用性8音频处理三件套,刚需场景
易用性8Claude Code 里一句话调用
技术选型7MossFormer2 + Demucs + faster-whisper,都是各自领域最佳
项目成熟度34 stars,8 天,一个人
与 Jay 的关联7播客处理直接可用
**总分****6.6**想法好、技术选型对,但太早太新