10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
留言板 小程序 交流群 关于我

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源

5款开源TTS,零样本声音克隆,克隆你想要的声音,快速本地部署(含一键包下载)

3月前 4829 0

前面苏米分享整理了几款在线的《在线AI配音语音生成和声音克隆平台》,但各平台由于都是线上平台,虽然有些直接免费使用,但还是存在一些限制,或者说自定义的程度受限,想要做到克隆声音无限制,那还得是直接用开源的部署方案了,但对于小白用户来说,自已部署的难度可想而知了,今天苏米就给大家推荐一些可以自已部署,但又不太难的方案,推荐4款非常强大且支持使用一键包本地部署的TTS开源程序,大家可以根据实际的需求和电脑配置选择,上手快,功能也比在线平台要强大且无限制!

注意:各一键包文件较大,苏米直接放在网盘下载,关注《苏米客》公众号回复“TTS一键包”即可获得;

什么是TTS

TTS(Text-To-Speech)这是一种文字转语音的语音合成。简单来说,它是一种能够将文本信息转换为自然、流畅的语音输出的技术。这种技术通过计算机或专门的设备,将文字内容转化为人们可以听懂的语音,

1、ChatTTS

ChatTTS 最强文本转语音!一键本地安装,100%成功!效果逼真如真人,完全免费开源!!

ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

功能亮点:中文/英语、支持多个说话者、可以预测和控制精细的韵律特征,包括笑声、停顿和插入语

一键部署:直接下载安装包解压后使用(需关闭VPN后双击运行,否则会出现闪退的情况)

使用说明:

支持四种Prompt 提示词:语速、笑声、停顿、语气词

  • [speed_0]-[speed_9]:数字越大,语速越快;

  • [laugh_0]-[laugh_9]:数字越大,笑声越多;

  • [break_0]-[break_9]:数字越大,停顿越多;

  • [oral_0]-[oral_9]:数字越大,语气词越多。

开源地址:https://github.com/2noise/ChatTTS

在线体验:https://chattts.com/zh?__theme=dark#Demo

2、GPT-SoVITS

GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件。目前只有TTS(文字转语音)功能,将来会更新变声功能。GPT-SoVITS的正确缩写应该是GSV。

GPT-SoVITS支持参考音频的情感、音色、语速控制合成音频的情感、音色、语速,可以少量语音微调训练,也可不训练直接推理,可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种,支持中日英韩粤5个语种均可跨语种合成。

V3新增特点:

  • 音色相似度更像,需要更少训练集来逼近本人(甚至不需要训练SoVITS)

  • GPT合成更稳定,重复漏字更少,也更容易跑出丰富情感

一键部署:Windows用户下载我给你的一键包后点击go-webui.bat,直接启动;

使用说明:

  • 如果你想克隆一个人的声音,你可以找到一段这个人的演讲录音

  • 如果是视频,可以使用人声分离功能,先分离出音频

开源地址:https://github.com/RVC-Boss/GPT-SoVITS

在线试用:https://gsv.acgnai.top/(各种游戏600多个角色)

使用指南:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

3、F5-TTS

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于2024年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。

F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。

功能亮点:

快速训练和推理: 相比于其他模型,F5-TTS的训练和推理速度更快。

流畅逼真的语音: 采用流匹配技术,生成更流畅、更自然、更忠实的语音。

基于扩散Transformer和ConvNeXt V2: 利用先进的架构,提升模型性能。

多风格/多说话人生成: 支持多风格和多说话人的语音生成。

提供Gradio应用: 提供友好的图形用户界面,方便用户进行推理和微调。

支持语音聊天: 通过集成Qwen2.5-3B-Instruct模型,支持语音聊天功能。

支持三种形式:

  • TTS:标准的单音色语音克隆;

  • Podcast:多音色克隆:有声读物制作者的福音;

  • Multi-Style:多种说话情绪,例如 Shouting...

开源地址:https://github.com/SWivid/F5-TTS

在线体验:https://www.modelscope.cn/studios/modelscope/E2-F5-TTS(魔塔)

4、Spark-TTS

Spark-TTS是一种先进的文本对语音系统,它使用大语言模型(LLM)的力量来高度准确且自然的语音综合。它旨在为研究和生产使用而有效,灵活和强大。

Spark-TTS完全基于QWEN2.5,完全基于QWEN2.5,消除了对流程匹配等其他生成模型的需求。它没有依靠单独的模型来生成声学特征,而是直接从LLM预测的代码中重建音频。这种方法简化了该过程,提高了效率并降低了复杂性。

功能亮点:

  • 零样本语音克隆:实测 3 秒音频就足够;

  • 双语支持:支持汉语和英语,并且能够以零拍的语音克隆来克隆跨语义和代码转换场景。

  • 可控的语音生成:结合 Qwen-2.5,自动调整语气、停顿、强调等语音表达。

开源地址:https://github.com/SparkAudio/Spark-TTS

体验地址:https://sparkaudio.github.io/spark-tts/

5、CosyVoice

阿里开源的 CosyVoice,与已有 TTS 方案相比,CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言细粒度控制方面,表现出色。

CosyVoice 的亮点总结:

  • 只需3到10秒的音频样本,便能够复刻出音色,包括语调和情感等细节;

  • 支持富文本和自然语言输入实现对情感和韵律的精细控制,使得合成语音充满感情色彩;

  • 可以实现跨语种的语音合成。

官方共提供了三个版本的模型:

  • 基座模型 CosyVoice-300M,支持 3s 声音克隆;

  • 经过SFT微调的模型 CosyVoice-300M-SFT,内置了多个训好的音色;

  • 支持细粒度控制的模型 CosyVoice-300M-Instruct,支持支持富文本和自然语言输入。

开源地址:https://github.com/FunAudioLLM/CosyVoice

体验地址:https://www.modelscope.cn/studios/iic/CosyVoice-300M(魔塔)

其实CosyVoice还有一个搭档,那就是阿里开源的SenseVoice,专注语音识别、情感识别和音频事件检测,满足更多人机交互的应用场景,比如语音翻译、语音对话、互动播客、有声读物等,有兴趣的也可以了解一下。

项目介绍:https://fun-audio-llm.github.io/

总结

苏米本文的整理主要还是针对TTS声音克隆开源项目的大致介绍,以便小白用户对开源TTS项目与在线克隆平台有一定的对比和了解,毕竟开源项目的部署是需要一定的程序开发和部署的基础,对比中可以发现,目前TTS开源项目的支持的功能更全面,对于实际的应用场景会支持的更好,像ChatTTS的提示词设置、GPT-SoVITS的情感、音色,还有音频分离、F5-TTS的多风格/多说话人生成,Spark-TTS的更可控的语音生成,阿里开源的 SenseVoice + CosyVoice 互动式的对话场景等,都能够应用到更具体的场景中。

一键包整理至网盘了,注意各一键包文件较大,关注《苏米客》公众号回复“TTS一键包”即可获得;

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
#TTS #ChatTTS #声音克隆 #本地部署 #一键包 
收藏 1
推荐阅读
  • 收集最佳的2024年顶级免费人工智能(AI)API,免费AI API接口合集
  • 新手入门AI编程,AI 开发工具推荐(Cursor、Trae、Copilot优缺点及横评对比)
  • 12款 AI 图片无损放大工具,AI图片修复工具,轻松搞定图片分辨率增强、修复老照片
  • 五款能力接近ChatGPT 3.5的国产AI工具推荐
  • 8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
评论 (0)
请登录后发表评论
分类精选
15款国内免费好用的AI写作神器合集,2025超干货! Ai写作工具推荐,支持论文长文
17050 5月前
2025年普通人必须要知道的15个AI工具,可以让日常工作效率大幅度提升
14210 4月前
2025开源AI数字人工具指南:8大免费开源神器带你免费解锁可商用的AI数字人
11855 2月前
8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
11073 10月前
12款国内外最全AI绘画工具推荐,AI文生图工具深度测评与场景化对比
8716 2月前
8 款热门 AI 图片+视频生成工具:文生图、文生视频、图生视频
8601 9月前
10个 AI PPT 生成工具,ai轻松打造精美 PPT,2024 必备!
4959 10月前
5款开源TTS,零样本声音克隆,克隆你想要的声音,快速本地部署(含一键包下载)
4830 3月前
Poe AI 2024最新版教程 | 免费白嫖Claude 3、GPT-4,集成了所有主流的AI聊天机器人!
4388 10月前
14款免费 AI 搜索神器,Ai搜索引擎哪家强,快速解决问题,提升效率!
3961 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 5款开源AI笔记神器推荐:私有化部署 + AI加持,让记录和整理变得更智能
2 2025年产品经理最值得尝试的7款AI原型设计神器,低成本高效率产品MVP必备
3 LLM API 聚合平台盘点,整合大模型API的开发者服务平台
4 全面拆解:四大LLM应用平台深度对比!Dify、Coze、FastGPT、RAGFlow谁更适合你?
5 独家整理30+免费 DeepSeek 满血网页版一键直达(建议收藏)
6 12款AI编程工具大对比:助你成为高效开发者!干货满满!
7 20款核心AI API 开发人员必备,涵盖文本生成、语音处理、图像识别、视频编辑四大领域
8 7款基于GPT-4o开发的Ghiblio吉卜力风格图片生成器,一键文生图/图生图/批量生成等
9 8款AI对口型工具,口型同步开源工具合集推荐及应用场景,生成高质量语音 + 口型同步
10 12款国内外最全AI绘画工具推荐,AI文生图工具深度测评与场景化对比
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 原创Axure模板 申请友联