Coe 深度研究:Linux 上的零 GUI 语音输入——按键说话,校正粘贴

> GitHub: quailyquaily/coe

> 原版(macOS): missuo/koe

> 技术: Go

> 研究时间: 2026-03-26

🎯 一句话版本

在 Linux GNOME/Wayland 上,按快捷键 → 说话 → 再按快捷键 → OpenAI 转录+校正 → 文字自动粘贴到当前应用。零 GUI,纯命令行,systemd 后台服务。macOS 上有 Koe,这是 Linux 的对等实现。

🔄 工作流


按快捷键(GNOME Custom Shortcut)
    ↓
pw-record 开始录音(PipeWire)
    ↓
再按快捷键 → 停止录音
    ↓
本地检查:静音/损坏? → 拦截,不发请求
    ↓
OpenAI ASR(gpt-4o-mini-transcribe)→ 原始转录
    ↓
OpenAI LLM(gpt-4o-mini)→ 文本校正/修饰
    ↓
Portal Clipboard → 自动粘贴到当前焦点应用

关键点:两步 AI 处理——先转录再校正。校正步骤用 LLM 修复转录错误、调整标点和格式。

🎯 设计原则

原则实现
**GNOME-first**原生 Portal API,不依赖 X11
**Wayland-first**尊重 Wayland 安全模型
**零 GUI**纯 YAML 配置 + CLI 命令
**一件事做好**只做语音输入,不做其他
**显式降级**Portal 不可用时明确 fallback 到 wl-copy/ydotool

🔧 技术细节

依赖

组件用途
`pw-record`PipeWire 录音
`wl-copy`Wayland 剪贴板
`ydotool`粘贴 fallback(可选)
OpenAI APIASR + LLM 校正

配置


# ~/.config/coe/config.yaml
asr:
  endpoint: https://api.openai.com/v1/audio/transcriptions
  model: gpt-4o-mini-transcribe
llm:
  endpoint: https://api.openai.com/v1/responses
  model: gpt-4o-mini
recorder: pw-record
sample_rate: 16000

安装


git clone https://github.com/quailyquaily/coe.git
cd coe && go build -o coe ./cmd/coe
./scripts/install-user.sh  # systemd user service
# 写入 API Key
echo "OPENAI_API_KEY=sk-xxx" > ~/.config/coe/env
systemctl --user restart coe.service

🆚 Coe vs Koe

Coe (Linux)Koe (macOS)
平台**GNOME/Wayland**macOS
语言GoGo
录音pw-record (PipeWire)macOS Audio
粘贴Portal clipboardmacOS pasteboard
快捷键GNOME Custom ShortcutmacOS 全局热键
ASROpenAIOpenAI
LLM 校正

基本是 1:1 移植,但处理了 Wayland 安全模型带来的复杂性(Portal API、权限持久化等)。

💡 与我们的关联

1. 语音输入到 OpenClaw?

如果 Young 用 Linux 桌面,Coe 可以让你在任何应用里用语音输入——包括在 Discord 频道里直接说话转文字,不用打字。

2. ASR + LLM 校正的两步模式

Coe 的两步处理(先 ASR 转录,再 LLM 校正)和我们的 summarize CLI 类似,但更轻量。这个模式对中文尤其有价值——ASR 的同音字错误由 LLM 一键修复。

3. 可以替换成本地模型

虽然默认用 OpenAI,但 ASR 和 LLM 端点都是 OpenAI-compatible 的,理论上可以指向:

这样就完全本地化,零 API 费用,隐私保护。

4. 工程参考

Go 写的 Linux 系统工具,处理 Wayland Portal API 的方式值得参考——很多工具在 Wayland 上就是用不了。

⚠️ 注意事项

1. 仅 GNOME Wayland:KDE/Hyprland/Sway 不支持

2. 仅 OpenAI API:默认需要付费 API Key

3. Alpha 阶段:功能还在完善中

4. 延迟:录音 → OpenAI 转录 → OpenAI 校正 → 粘贴,至少 2-3 秒

5. 中文支持未明确:README 没有提到多语言,但 OpenAI ASR 本身支持中文

📊 评分

维度评分(/10)
设计质量8.5 — Wayland-first + Portal 优先 + 显式降级,工程严谨
实用性7.5 — 解决真实痛点(Linux 语音输入),但平台限制多
创新性6.5 — Koe 的 Linux 移植,思路不新但执行扎实
与我们的关联6.5 — 如果用 Linux 桌面则有用,否则关联不大
完成度7.0 — Alpha 阶段,核心流程可用
**综合****7.0**

报告由深度研究助手自动生成 | 2026-03-26

来源: GitHub