Coe 深度研究：Linux 上的零 GUI 语音输入——按键说话，校正粘贴

> 原版（macOS）: missuo/koe

> 技术: Go

> 研究时间: 2026-03-26

🎯 一句话版本

在 Linux GNOME/Wayland 上，按快捷键 → 说话 → 再按快捷键 → OpenAI 转录+校正 → 文字自动粘贴到当前应用。零 GUI，纯命令行，systemd 后台服务。macOS 上有 Koe，这是 Linux 的对等实现。

🔄 工作流


按快捷键（GNOME Custom Shortcut）
    ↓
pw-record 开始录音（PipeWire）
    ↓
再按快捷键 → 停止录音
    ↓
本地检查：静音/损坏？ → 拦截，不发请求
    ↓
OpenAI ASR（gpt-4o-mini-transcribe）→ 原始转录
    ↓
OpenAI LLM（gpt-4o-mini）→ 文本校正/修饰
    ↓
Portal Clipboard → 自动粘贴到当前焦点应用

关键点：两步 AI 处理——先转录再校正。校正步骤用 LLM 修复转录错误、调整标点和格式。

🎯 设计原则

原则	实现
GNOME-first	原生 Portal API，不依赖 X11
Wayland-first	尊重 Wayland 安全模型
零 GUI	纯 YAML 配置 + CLI 命令
一件事做好	只做语音输入，不做其他
显式降级	Portal 不可用时明确 fallback 到 wl-copy/ydotool

🔧 技术细节

依赖

组件	用途
`pw-record`	PipeWire 录音
`wl-copy`	Wayland 剪贴板
`ydotool`	粘贴 fallback（可选）
OpenAI API	ASR + LLM 校正

配置


# ~/.config/coe/config.yaml
asr:
  endpoint: https://api.openai.com/v1/audio/transcriptions
  model: gpt-4o-mini-transcribe
llm:
  endpoint: https://api.openai.com/v1/responses
  model: gpt-4o-mini
recorder: pw-record
sample_rate: 16000

安装


git clone https://github.com/quailyquaily/coe.git
cd coe && go build -o coe ./cmd/coe
./scripts/install-user.sh  # systemd user service
# 写入 API Key
echo "OPENAI_API_KEY=sk-xxx" > ~/.config/coe/env
systemctl --user restart coe.service

🆚 Coe vs Koe

	Coe (Linux)	Koe (macOS)
平台	GNOME/Wayland	macOS
语言	Go	Go
录音	pw-record (PipeWire)	macOS Audio
粘贴	Portal clipboard	macOS pasteboard
快捷键	GNOME Custom Shortcut	macOS 全局热键
ASR	OpenAI	OpenAI
LLM 校正	✅	✅

基本是 1:1 移植，但处理了 Wayland 安全模型带来的复杂性（Portal API、权限持久化等）。

💡 与我们的关联

1. 语音输入到 OpenClaw？

如果 Young 用 Linux 桌面，Coe 可以让你在任何应用里用语音输入——包括在 Discord 频道里直接说话转文字，不用打字。

2. ASR + LLM 校正的两步模式

Coe 的两步处理（先 ASR 转录，再 LLM 校正）和我们的 summarize CLI 类似，但更轻量。这个模式对中文尤其有价值——ASR 的同音字错误由 LLM 一键修复。

3. 可以替换成本地模型

虽然默认用 OpenAI，但 ASR 和 LLM 端点都是 OpenAI-compatible 的，理论上可以指向：

ASR → ub2 上的 faster-whisper（需要包装成 OpenAI API 格式）
LLM → ub2 上的 Ollama（Qwen3.5:27b）

这样就完全本地化，零 API 费用，隐私保护。

4. 工程参考

Go 写的 Linux 系统工具，处理 Wayland Portal API 的方式值得参考——很多工具在 Wayland 上就是用不了。

⚠️ 注意事项

1. 仅 GNOME Wayland：KDE/Hyprland/Sway 不支持

2. 仅 OpenAI API：默认需要付费 API Key

3. Alpha 阶段：功能还在完善中

4. 延迟：录音 → OpenAI 转录 → OpenAI 校正 → 粘贴，至少 2-3 秒

5. 中文支持未明确：README 没有提到多语言，但 OpenAI ASR 本身支持中文

📊 评分

维度	评分（/10）
设计质量	8.5 — Wayland-first + Portal 优先 + 显式降级，工程严谨
实用性	7.5 — 解决真实痛点（Linux 语音输入），但平台限制多
创新性	6.5 — Koe 的 Linux 移植，思路不新但执行扎实
与我们的关联	6.5 — 如果用 Linux 桌面则有用，否则关联不大
完成度	7.0 — Alpha 阶段，核心流程可用
综合	7.0

报告由深度研究助手自动生成 | 2026-03-26

来源: GitHub

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）