10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Voicebox 开源:本地语音克隆神器,7 个 TTS 引擎 + 多轨道编辑器

2小时前 AI开源项目 15 0

又发现一个本地语音克隆神器,开源了。

ElevenLabs 在 2023 年的爆火,说明了 AI 语音合成的需求是很旺盛的。大家都渴望着能用自己的声音生成配音,或者克隆某个喜欢的音色,于是纷纷选择订阅各种在线服务。

当多数人兴致勃勃想搞 AI 配音时,现实是这样的。大部分在线服务基本的套路,要把自己的数据传到云端,还要出订阅费,每个月几十美元。你的声音样本、训练好的模型,全锁在别人的服务器上。哪天服务涨了价,或者干脆关了,你什么也带不走。

最近刷到一个名为 Voicebox 的项目在 GitHub 上开源,其采用的本地化语音克隆方案,让每个人都能在自己的电脑上完成专业级配音制作。

Voicebox 界面

GitHub 上已获取 21K 个 Star。

GitHub Star 数

它是一个完全本地运行的语音克隆工作站,集成了 7 个 TTS 引擎,带多轨道编辑器,还有完整的 API——ElevenLabs 能做的事,它基本都能做,只不过全在你自己机器上跑,免费。

7 个 TTS 引擎

1. Qwen3-TTS(主力引擎)

阿里巴巴开源的 Qwen3-TTS 是主力引擎,有 0.6B 和 1.7B 两个版本,支持 10 种语言,克隆质量很高,可以给它写"表演指令",做有声书、做配音,这个是最佳选择。

2. LuxTTS(快速草稿)

想生成一点就选 LuxTTS。只要 1GB 显存,CPU 上能跑到 150 倍实时速度,输出还是 48kHz 的高采样率。假设你只是想快速出个草稿听效果,就选这个就行了。

3. Chatterbox Multilingual(多语言)

做全球的内容就用 Chatterbox Multilingual,它有 23 种语言,阿拉伯语、芬兰语、斯瓦希里语这种小语种都支持。

4. Chatterbox Turbo(副语言表达)

Chatterbox Turbo 有点不一样。它只有 350M 参数,但能理解副语言标签——在文本里写 [laugh]、[sigh]、[gasp],它真的会笑、叹气、倒吸一口气。输入框里敲 / 就能弹出标签选择器,做角色配音的时候特别好用。

5. TADA(长音频生成)

要生成长时间的连续音频,就用 TADA。这是一个更长的语音 - 语言模型,有 1B 和 3B 两个版本,能生成 700 秒以上的连贯音频,时间戳精确到音素级别。

6. Kokoro(最小巧)

Kokoro 是最小的那个,只有 82M 参数,自带 50 个精选预设声音。对硬件要求最低。

TTS 引擎对比

三大核心优势

1. 本地运行,数据不出设备

现有大部分在线服务依赖云端 API,你的声音样本得上传。Voicebox 采用完全本地化方案,所有推理、克隆、生成都你的机器上完成。

硬件支持:

  • macOS 上走 MLX/Metal,Apple Silicon 能快 4 到 5 倍
  • Windows 上走 CUDA,NVIDIA 显卡自动识别
  • AMD 和 Intel Arc 也都有对应的后端支持

2. 能做一整期播客

大部分 TTS 工具的逻辑先输入文字,生成音频,就结束了。但是做过语音内容的人知道,真正的麻烦不是生成一段话的语音,是把多段话拼成完整的内容。

Voicebox 的 Stories 编辑器是一个多轨道时间轴编辑器,长得有点像简化版的 DAW。你可以把不同声音的生成结果拖到不同轨道上,直接在时间轴上排列、修剪、分割,播放头会同步走,随时听效果。

Stories 多轨道编辑器

3. 8 种后处理效果,不用切到 Audition

像音调偏移、混响、延迟、合唱/法兰、压缩、增益、高通滤波、低通滤波,都可以在生成音频后直接调整,背后用的是 Spotify 的 pedalboard 库,质量相当扎实。

后处理效果

还支持实时预览,调好参数后保存成预设。内置了 4个预设:Robotic(机器人声)、Radio(收音机质感)、Echo Chamber(回声室)、Deep Voice(低沉嗓音),也可以自己创建。

效果也能绑定到声音档案上。比如你有一个"旁白"的档案,默认就带混响和压缩,每次用这个声音生成,效果自动带上,不用每次手动调。

实际应用场景

1. 多角色有声书制作

输入不同角色的台词,为每个角色创建独立的声音档案,在 Stories 编辑器里排列时间轴,一键导出完整的有声书。

2. 播客对话生成

两个人甚至多人的对话场景,每个声音独立轨道,支持实时预览和效果调整,5 分钟的对话内容,从生成到导出可能只需要 10 分钟。

3. 视频配音与后期

生成的音频自带后处理效果,混响、压缩、音调调整一站式完成,不用再切到 Audition 或 Premiere 做二次处理。

安装与使用

安装也容易,5 分钟就能跑起来。

去官网 voicebox.sh 下载安装包。

下载安装包

macOS 有 Apple Silicon 和 Intel 两个版本,Windows 是 MSI 安装包,也可以 Docker 一键启动:

git clone https://github.com/jamiepine/voicebox
cd voicebox
docker compose up

应用启动后,还不能输入文字用。要先把模型装好。先点界面右上角的立方体图标,进入模型管理页面。

模型管理页面

你会看到一串模型列表,不用全下。新手建议先下这两个:

  • 选 Qwen3-TTS 的 1.7B 版本,效果好
  • 还有一个 Whisper Small 用来克隆声音时用来转录样本

第一次下载过程可能要几分钟。模型下载完,会自动加载,状态变成绿色就能用了。

模型加载完成

模型准备好了,创建声音档案。点左侧的 Profiles 标签,再点一下右上角的"+"号。

有 3 种方式:

创建声音档案

  • 最方便的是直接拖一段 WAV 或 MP3 进去会自动上传
  • 或者直接点录音按钮,对着麦克风说 10-20 秒就可以了
  • 如果你正在看某个视频或播客,也可以直接从系统音频里截取

最简单的方式就是直接录音。点录音按钮,用正常语速念一段话,比如:"大家好,我是开源日记,今天要给大家分享一个很棒的开源项目 voicebox。"

录完之后点保存,给档案起个名字,比如"我的声音",后面要用到。

最后就可以生成语音了。在主界面,在文本框里输入想生成的内容。如"欢迎收听今天的节目,我们一起来聊聊这个有趣的话题。"

选 Qwen3-TTS 引擎,语言就选中文,声音档案选择前面创建的"我的声音"。

生成语音界面

最后点"Generate"生成,等个几秒,音频就出来了。点播放按钮听听效果,不满意就换引擎重新生成。

就这么简单。没有命令行,没有配置文件。点几下鼠标,你的声音就克隆出来了。

API 集成

想把它集成到自己的项目里,也支持,Voicebox 暴露了完整的 REST API。默认跑在 localhost:17493,生成语音、管理声音档案、查询状态都有接口。

API 文档

curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好,这是 Voicebox 生成的语音", "profile_id": "你的档案 ID", "language": "zh"}'

注意事项

  • 用 CPU 也能跑但是很慢。想要流畅的体验还是需要用 GPU 加速
  • 推荐用 macOS。用 MLX/Metal,Apple Silicon 能快 4 到 5 倍
  • Linux 目前没有现成的安装包,得从源码编译,对不熟悉构建流程的人来说有点折腾

总结

以前总觉得语音克隆那都是专业工作室才能干的事,现在随便一台普通电脑,就能把 VoiceBox 跑起来。以前还老担心数据要传到云端不安全,现在全程离线就能搞定。

苏米注:Voicebox 的出现确实降低了语音克隆的门槛。7 个 TTS 引擎覆盖了从快速草稿到专业配音的各种场景,多轨道编辑器 + 后处理效果的组合让它可以独立完成完整的音频制作。最重要的是本地运行保证了数据安全,这对于商业应用尤其重要。项目基于 MIT 协议开源,可商用也能二次开发,值得尝试。

项目地址:https://github.com/jamiepine/voicebox

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Voicebox 开源:本地语音克隆神器,7 个 TTS 引擎 + 多轨道编辑器
#Voicebox #语音克隆 #开源项目 #TTS #AI 配音 
收藏 1
Gemma 4 + TurboQuant:Google开源模型新方案,本地部署 LLM 内存降低 83%
Hermes Agent vs WorkBuddy:AI 操作系统与办公助手的定位差异详解
推荐阅读
  • n-skills:为中小团队量身定做的AI技能模块化框架,一个真正可用的开源技能集
  • TuriX-CUA:让 AI 接管 Windows 和 MacOS,这个 GitHub 开源项目牛
  • Huobao Drama:一站式短剧生成开源平台,从剧本到成片的AI视频自动化生成平台
  • CapCut API:一个剪映API开源项目,让AI自动剪辑视频
  • YPrompt:把零散Prompt提示词变成可管理的知识库,提示词管理系统
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8887 6月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
7947 7月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6067 3月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5660 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5425 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5295 7月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5179 6月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5175 7月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
5017 6月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
4791 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Voicebox 开源:本地语音克隆神器,7 个 TTS 引擎 + 多轨道编辑器
2 Browser Harness 开源:592 行代码实现自愈式浏览器自动化,3.2K Star
3 Hermes Desktop v0.5.0 发布:原生 macOS 桌面伴侣,SSH 直连无网关
4 video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗
5 Learn Claude Code 开源:真正的 Agent Harness 工程实战,12 课程从零构建 AI 智能体
6 说人话 Skill 详解:如何去除 AI 生成内容的翻译腔和工程师腔
7 Google TimesFM 开源详解:1000 亿时间点预训练,零样本时间序列预测模型
8 Claude Code 生成专业图表的 15 个 Skills:覆盖 7 种渲染引擎的完整指南
9 web-access Skill 全解析:让 AI 像真人一样浏览网页的联网操作工具
10 Hermes Web UI 汉化版发布:8 平台统一管理的 AI 对话控制台
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联