10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包

1月前 AI开源项目 759 0

最近在体验新的AI语音生成工具时,发现了一个不错的tts方言包,支持多人对话的方言tts:SoulX-Podcast。

作为一名经常接触各类AI开源项目的产品经理,我注意到语音合成领域正在从单人独白向多人对话场景演进。

这个项目的特别之处在于,它不仅支持多轮、多说话人的对话生成,还能处理中文方言和语音克隆,填补了播客风格语音生成的一些空白。

今天就和大家分享一下我的体验与部署思路。

项目概述

SoulX-Podcast 是由 Soul-AILab 开发的一款专门为播客和对话类场景优化的文本转语音(TTS)模型。

与传统的单人叙述TTS不同,它在以下方面有明确的定位:

  • 应用场景定位:长篇内容、多轮对话、多说话人场景(如播客、有声书对白、剧本朗读等)
  • 语言覆盖:普通话、英语、以及四川话、河南话、粤语等多种中文方言
  • 技术特征:零样本语音克隆、副语言事件控制(笑声、叹息等)
  • 模型规模:基础版本为 1.7B 参数量,提供通用和方言两个版本

项目地址:https://github.com/Soul-AILab/SoulX-Podcast

modelscope:https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B/summary

核心功能分析

功能维度 具体表现 使用门槛
多人对话生成 支持多轮、多说话人的连续语音合成,对话流畅度优于单人TTS级联方案 需准备对话稿件和说话人音频样本
方言支持 内置四川话、河南话、粤语等方言模型,可直接调用 低——预置模型,无需额外训练
零样本语音克隆 上传参考音频即可克隆语音特征,跨方言兼容 中等——需要清晰的参考音频样本(5-10秒建议)
副语言控制 支持插入笑声、叹息等情感标记,增强对话自然度 低——通过文本标签标注

与同类工具的对比

在当前的开源TTS生态中,类似的方向还有:

  • Fish-Speech:侧重流畅度和自然度,但多人对话支持相对有限
  • GPT-SoVITS:个性化克隆能力强,但适配方言能力弱
  • Amphion:研究框架导向,功能完整但部署复杂度高

SoulX-Podcast 的差异化在于:将"对话场景"和"方言支持"作为一级功能,而非附加选项。这对播客创作者、有声书制作和剧本朗读等垂直场景更加友好。

 

部署与使用指南

1. 系统与环境要求

  • 显卡显存:建议 8GB 及以上(实测占用约 8GB)
  • Python 版本:3.11
  • PyTorch 版本:务必为 2.7.1(其他版本存在兼容性风险)
  • 操作系统:支持 Windows、Linux

2. Windows 部署流程

第一步:创建独立环境并安装 PyTorch GPU 版本

conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118

第二步:安装项目依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install triton  # 单独安装 triton 库

第三步:下载模型文件

pip install -U huggingface_hub

# 基础模型(通用版本)
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B

# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

3. 使用工作流

启动Web界面:运行项目启动脚本后,进入Web UI(通常为 http://localhost:7860)

一键包演示:

下载一键包,点击【01运行程序.bat】即可启动,页面如下:

准备输入内容

上传或使用预置参考音频(用于语音克隆的音色参考)

输入对话脚本(支持多个说话人标签)

配置说话人方言

选择每位说话人的语言方言(普通话、四川话、河南话、粤语等)

可为不同说话人设置不同方言

添加表现力标记

在文本中标注 [笑声]、[叹息] 等副语言事件

增强对话场景的真实感

生成与导出

点击合成按钮生成音频

导出为 WAV 或其他格式

配置建议

配置项 推荐值 说明
参考音频长度 5-10 秒 过短影响克隆质量,过长无明显收益
音频质量 16kHz 或以上采样率 降噪清晰的音频有助于更好的克隆效果
对话分段 单轮 100-500 字符 过长的单轮对白可能影响连贯性
并发任务 单任务执行 避免GPU显存溢出,需按队列处理

方言示例

河南

四川

粤语

结语

作为一名经常评估开源AI项目的产品经理,我认为 SoulX-Podcast 在对话多人场景和方言适配两个维度的组合是比较难得的。它不是"最强"的TTS,但对特定用户群体(播客创作者、有声书制作团队、内容创意工作者)来说,这套工具的垂直度较高。

部署成本相对可控,显卡要求在业界算中等水平。如果你有多人对话配音的需求、或想在内容中融入方言元素,这个项目值得一试。建议先通过一键包或在线Demo体验效果,再决定是否本地部署。

后续我会继续关注这个项目的迭代,特别是在跨语言混合和实时性能方面的改进。欢迎对语音合成感兴趣的朋友保持关注。


如需获取一键包可以关注「苏米客」公众号,回复「sou」关键词。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
#SoulX #SoulX-Podcast #方言tts #语音克隆 
收藏 1
Next.js 原生 MCP 来了:为什么 AI 编程在 Web 开发中需要这一层感知
6个AI流程图、信息图、演示文稿生成合集(AI配图邪修版)
推荐阅读
  • MCPStore: 可视化MCP服务开源管理平台,轻松为你的Agent添加MCP能力
  • LangFlow:可视化构建 AI 工作流的开源框架,快速搭建属于你的智能体应用
  • Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
  • short-video-factory:5分钟教你搭建免费AI批量剪辑工具,轻松制作带货视频
  • Stirling-PDF:基于 Web 的本地化开源 PDF 处理工具
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
6159 2月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4372 2月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
4309 3月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
3570 2月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
3311 3月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
3127 2月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
2985 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
2655 3月前
Fogsight (雾象):一句话自动生成任何科普动画
2541 2月前
VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
2453 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 wechat-chatgpt:快速把国内外主流大模型无缝接入微信生态
2 KnowNote:本地优先的开源知识笔记工具,腾讯ima开源平替
3 banana-slides:你是不是在这个开源?用Nano Banana Pro生成PPT
4 CapCut API:一个剪映API开源项目,让AI自动剪辑视频
5 PageAgent:阿里开源AI智能体,无需后端部署即可轻松集成
6 PinMe:为 AI 生成的小项目而生的极简部署工具,GitHub 爆火AI前端部署神器
7 OpenScreen:一款开源录屏工具,Screen Studio、Cursorful免费平替
8 PasteMD:解决 AI 对话、Markdown 与 Office 文档间的格式转换问题
9 MinerU:一款全能的PDF文档解析神器,本地部署的PDF智能解析方案
10 Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联