Voicebox 的能力矩阵相当密集。先拆开看： 7 个 TTS 引擎。每个都有不同的侧重点： Qwen3-TTS（0.6B / 1.8B）——质量天花板，支持 10 种语言和指令控制（"慢点说"、"小声说"），语音克隆质量最高 Qwen CustomVoice —— 50+ 预设音色，不需要参考

立即访问

推荐星级暂无

官网voicebox.sh

收费模式免费

收录/更新时间2026-06-29

Ai音频

Voicebox 的能力矩阵相当密集。先拆开看：

7 个 TTS 引擎。 每个都有不同的侧重点：

Qwen3-TTS（0.6B / 1.8B）——质量天花板，支持 10 种语言和指令控制（”慢点说”、”小声说”），语音克隆质量最高
Qwen CustomVoice —— 50+ 预设音色，不需要参考音频，用文字描述就能控制语调
LuxTTS —— 轻量但高质量，~1GB 显存就能跑，CPU 上能做到 150 倍实时
Chatterbox Multilingual —— 覆盖 23 种语言，包括阿拉伯语、印地语、斯瓦希里语等冷门语种
Chatterbox Turbo —— 350M 参数，最快，支持情感标签（[laugh]、[sigh] 等）
TADA（1B / 3B） —— HumeAI 的语音语言模型，能生成 700 秒以上连贯音频
Kokoro —— 50+ 预设音色，只有 82M 参数，CPU 上跑飞快

7 个引擎不是堆砌，是覆盖不同场景的”工具箱”——追求质量用 Qwen3-TTS，追求速度用 Chatterbox Turbo，追求低资源用 Kokoro，追求多语言用 Chatterbox Multilingual。

1 个 STT 引擎 + 全局听写。 Whisper 的 Base/Small/Medium/Large 可选，外加 Turbo 模式（比 Large 快 8 倍，质量损失极小）。全局热键触发，在任何应用中按住说话松手即转录，macOS 支持自动粘贴到焦点文本框。这意味着你可以在 VS Code 里写代码时说”定义一个函数输入两个参数返回它们的和”，语音直接转成文字填入编辑器中。

MCP 服务器（Agent 语音输出）。 通过 MCP（Model Context Protocol）协议与 Claude Code、Cursor、Cline 等 AI 智能体集成。智能体完成任务后，可以调用 voicebox.speak 直接用克隆的声音说出结果。并且支持多 Agent 绑定不同声音——让 Claude 用一个声音说话，Cursor 用另一个。

多音轨故事编辑器。 拖放多轨合成，每轨锁定不同的语音配置适合播客、对话、配音场景。这个功能让 Voicebox 从”语音生成工具”扩展到了”音频制作工具”。

后期处理效果。 Spotify 的 pedalboard 库驱动：音高偏移、混响、延迟、合唱、压缩器、滤波器等 8 种效果，内置 4 个预设（机器人音、收音机、回声室、深沉语音），支持自定义预设。

网址：https://voicebox.sh

项目地址：https://github.com/jamiepine/voicebox

你可能感兴趣的网站

OmniVoice – 支持 600+ 语种的 AI 语音合成工具 Kongano – 免费下载、免版税音乐下载的网站苏诺之音 Suno，AI音乐创作平台 VocalRemover 音频处理工具

Voicebox – 免费的语音输入输出工作台

SD分享导航 | 2026-06-28

没有啦 (Ｔ▽Ｔ)

评论列表 (0条)：

延伸阅读: