当前位置：首页 » AI开源项目

SoulX-Podcast：支持多人对话的方言tts，支持语音克隆，可现实长篇播客，文末一键包

6月前 AI开源项目 1621 0

最近在体验新的AI语音生成工具时，发现了一个不错的tts方言包，支持多人对话的方言tts：SoulX-Podcast。

作为一名经常接触各类AI开源项目的产品经理，我注意到语音合成领域正在从单人独白向多人对话场景演进。

这个项目的特别之处在于，它不仅支持多轮、多说话人的对话生成，还能处理中文方言和语音克隆，填补了播客风格语音生成的一些空白。

今天就和大家分享一下我的体验与部署思路。

项目概述

SoulX-Podcast 是由 Soul-AILab 开发的一款专门为播客和对话类场景优化的文本转语音（TTS）模型。

与传统的单人叙述TTS不同，它在以下方面有明确的定位：

应用场景定位：长篇内容、多轮对话、多说话人场景（如播客、有声书对白、剧本朗读等）
语言覆盖：普通话、英语、以及四川话、河南话、粤语等多种中文方言
技术特征：零样本语音克隆、副语言事件控制（笑声、叹息等）
模型规模：基础版本为 1.7B 参数量，提供通用和方言两个版本

项目地址：https://github.com/Soul-AILab/SoulX-Podcast

modelscope：https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B/summary

核心功能分析

功能维度	具体表现	使用门槛
多人对话生成	支持多轮、多说话人的连续语音合成，对话流畅度优于单人TTS级联方案	需准备对话稿件和说话人音频样本
方言支持	内置四川话、河南话、粤语等方言模型，可直接调用	低——预置模型，无需额外训练
零样本语音克隆	上传参考音频即可克隆语音特征，跨方言兼容	中等——需要清晰的参考音频样本（5-10秒建议）
副语言控制	支持插入笑声、叹息等情感标记，增强对话自然度	低——通过文本标签标注

与同类工具的对比

在当前的开源TTS生态中，类似的方向还有：

Fish-Speech：侧重流畅度和自然度，但多人对话支持相对有限
GPT-SoVITS：个性化克隆能力强，但适配方言能力弱
Amphion：研究框架导向，功能完整但部署复杂度高

SoulX-Podcast 的差异化在于：将"对话场景"和"方言支持"作为一级功能，而非附加选项。这对播客创作者、有声书制作和剧本朗读等垂直场景更加友好。

部署与使用指南

1. 系统与环境要求

显卡显存：建议 8GB 及以上（实测占用约 8GB）
Python 版本：3.11
PyTorch 版本：务必为 2.7.1（其他版本存在兼容性风险）
操作系统：支持 Windows、Linux

2. Windows 部署流程

第一步：创建独立环境并安装 PyTorch GPU 版本

conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118

第二步：安装项目依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install triton  # 单独安装 triton 库

第三步：下载模型文件

pip install -U huggingface_hub

# 基础模型（通用版本）
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B

# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

3. 使用工作流

启动Web界面：运行项目启动脚本后，进入Web UI（通常为 http://localhost:7860）

一键包演示：

下载一键包，点击【01运行程序.bat】即可启动，页面如下：

准备输入内容

上传或使用预置参考音频（用于语音克隆的音色参考）

输入对话脚本（支持多个说话人标签）

配置说话人方言

选择每位说话人的语言方言（普通话、四川话、河南话、粤语等）

可为不同说话人设置不同方言

添加表现力标记

在文本中标注 [笑声]、[叹息] 等副语言事件

增强对话场景的真实感

生成与导出

点击合成按钮生成音频

导出为 WAV 或其他格式

配置建议

配置项	推荐值	说明
参考音频长度	5-10 秒	过短影响克隆质量，过长无明显收益
音频质量	16kHz 或以上采样率	降噪清晰的音频有助于更好的克隆效果
对话分段	单轮 100-500 字符	过长的单轮对白可能影响连贯性
并发任务	单任务执行	避免GPU显存溢出，需按队列处理

方言示例

河南

四川

粤语

结语

作为一名经常评估开源AI项目的产品经理，我认为 SoulX-Podcast 在对话多人场景和方言适配两个维度的组合是比较难得的。它不是"最强"的TTS，但对特定用户群体（播客创作者、有声书制作团队、内容创意工作者）来说，这套工具的垂直度较高。

部署成本相对可控，显卡要求在业界算中等水平。如果你有多人对话配音的需求、或想在内容中融入方言元素，这个项目值得一试。建议先通过一键包或在线Demo体验效果，再决定是否本地部署。

后续我会继续关注这个项目的迭代，特别是在跨语言混合和实时性能方面的改进。欢迎对语音合成感兴趣的朋友保持关注。

如需获取一键包可以关注「苏米客」公众号，回复「sou」关键词。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：SoulX-Podcast：支持多人对话的方言tts，支持语音克隆，可现实长篇播客，文末一键包

请登录后发表评论