
Voicebox 的能力矩阵相当密集。先拆开看: 7 个 TTS 引擎。 每个都有不同的侧重点: Qwen3-TTS(0.6B / 1.8B)——质量天花板,支持 10 种语言和指令控制("慢点说"、"小声说"),语音克隆质量最高 Qwen CustomVoice —— 50+ 预设音色,不需要参考
Voicebox 的能力矩阵相当密集。先拆开看:
7 个 TTS 引擎。 每个都有不同的侧重点:
- Qwen3-TTS(0.6B / 1.8B)——质量天花板,支持 10 种语言和指令控制(”慢点说”、”小声说”),语音克隆质量最高
- Qwen CustomVoice —— 50+ 预设音色,不需要参考音频,用文字描述就能控制语调
- LuxTTS —— 轻量但高质量,~1GB 显存就能跑,CPU 上能做到 150 倍实时
- Chatterbox Multilingual —— 覆盖 23 种语言,包括阿拉伯语、印地语、斯瓦希里语等冷门语种
- Chatterbox Turbo —— 350M 参数,最快,支持情感标签([laugh]、[sigh] 等)
- TADA(1B / 3B) —— HumeAI 的语音语言模型,能生成 700 秒以上连贯音频
- Kokoro —— 50+ 预设音色,只有 82M 参数,CPU 上跑飞快
7 个引擎不是堆砌,是覆盖不同场景的”工具箱”——追求质量用 Qwen3-TTS,追求速度用 Chatterbox Turbo,追求低资源用 Kokoro,追求多语言用 Chatterbox Multilingual。
1 个 STT 引擎 + 全局听写。 Whisper 的 Base/Small/Medium/Large 可选,外加 Turbo 模式(比 Large 快 8 倍,质量损失极小)。全局热键触发,在任何应用中按住说话松手即转录,macOS 支持自动粘贴到焦点文本框。这意味着你可以在 VS Code 里写代码时说”定义一个函数输入两个参数返回它们的和”,语音直接转成文字填入编辑器中。
MCP 服务器(Agent 语音输出)。 通过 MCP(Model Context Protocol)协议与 Claude Code、Cursor、Cline 等 AI 智能体集成。智能体完成任务后,可以调用 voicebox.speak 直接用克隆的声音说出结果。并且支持多 Agent 绑定不同声音——让 Claude 用一个声音说话,Cursor 用另一个。
多音轨故事编辑器。 拖放多轨合成,每轨锁定不同的语音配置 适合播客、对话、配音场景。这个功能让 Voicebox 从”语音生成工具”扩展到了”音频制作工具”。
后期处理效果。 Spotify 的 pedalboard 库驱动:音高偏移、混响、延迟、合唱、压缩器、滤波器等 8 种效果,内置 4 个预设(机器人音、收音机、回声室、深沉语音),支持自定义预设。

评论列表 (0条):
加载更多评论 Loading...