10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包

7月前 AI开源项目 1871 0

最近在体验新的AI语音生成工具时,发现了一个不错的tts方言包,支持多人对话的方言tts:SoulX-Podcast。

作为一名经常接触各类AI开源项目的产品经理,我注意到语音合成领域正在从单人独白向多人对话场景演进。

这个项目的特别之处在于,它不仅支持多轮、多说话人的对话生成,还能处理中文方言和语音克隆,填补了播客风格语音生成的一些空白。

今天就和大家分享一下我的体验与部署思路。

项目概述

SoulX-Podcast 是由 Soul-AILab 开发的一款专门为播客和对话类场景优化的文本转语音(TTS)模型。

与传统的单人叙述TTS不同,它在以下方面有明确的定位:

  • 应用场景定位:长篇内容、多轮对话、多说话人场景(如播客、有声书对白、剧本朗读等)
  • 语言覆盖:普通话、英语、以及四川话、河南话、粤语等多种中文方言
  • 技术特征:零样本语音克隆、副语言事件控制(笑声、叹息等)
  • 模型规模:基础版本为 1.7B 参数量,提供通用和方言两个版本

项目地址:https://github.com/Soul-AILab/SoulX-Podcast

modelscope:https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B/summary

核心功能分析

功能维度 具体表现 使用门槛
多人对话生成 支持多轮、多说话人的连续语音合成,对话流畅度优于单人TTS级联方案 需准备对话稿件和说话人音频样本
方言支持 内置四川话、河南话、粤语等方言模型,可直接调用 低——预置模型,无需额外训练
零样本语音克隆 上传参考音频即可克隆语音特征,跨方言兼容 中等——需要清晰的参考音频样本(5-10秒建议)
副语言控制 支持插入笑声、叹息等情感标记,增强对话自然度 低——通过文本标签标注

与同类工具的对比

在当前的开源TTS生态中,类似的方向还有:

  • Fish-Speech:侧重流畅度和自然度,但多人对话支持相对有限
  • GPT-SoVITS:个性化克隆能力强,但适配方言能力弱
  • Amphion:研究框架导向,功能完整但部署复杂度高

SoulX-Podcast 的差异化在于:将"对话场景"和"方言支持"作为一级功能,而非附加选项。这对播客创作者、有声书制作和剧本朗读等垂直场景更加友好。

 

部署与使用指南

1. 系统与环境要求

  • 显卡显存:建议 8GB 及以上(实测占用约 8GB)
  • Python 版本:3.11
  • PyTorch 版本:务必为 2.7.1(其他版本存在兼容性风险)
  • 操作系统:支持 Windows、Linux

2. Windows 部署流程

第一步:创建独立环境并安装 PyTorch GPU 版本

conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118

第二步:安装项目依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install triton  # 单独安装 triton 库

第三步:下载模型文件

pip install -U huggingface_hub

# 基础模型(通用版本)
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B

# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

3. 使用工作流

启动Web界面:运行项目启动脚本后,进入Web UI(通常为 http://localhost:7860)

一键包演示:

下载一键包,点击【01运行程序.bat】即可启动,页面如下:

准备输入内容

上传或使用预置参考音频(用于语音克隆的音色参考)

输入对话脚本(支持多个说话人标签)

配置说话人方言

选择每位说话人的语言方言(普通话、四川话、河南话、粤语等)

可为不同说话人设置不同方言

添加表现力标记

在文本中标注 [笑声]、[叹息] 等副语言事件

增强对话场景的真实感

生成与导出

点击合成按钮生成音频

导出为 WAV 或其他格式

配置建议

配置项 推荐值 说明
参考音频长度 5-10 秒 过短影响克隆质量,过长无明显收益
音频质量 16kHz 或以上采样率 降噪清晰的音频有助于更好的克隆效果
对话分段 单轮 100-500 字符 过长的单轮对白可能影响连贯性
并发任务 单任务执行 避免GPU显存溢出,需按队列处理

方言示例

河南

四川

粤语

结语

作为一名经常评估开源AI项目的产品经理,我认为 SoulX-Podcast 在对话多人场景和方言适配两个维度的组合是比较难得的。它不是"最强"的TTS,但对特定用户群体(播客创作者、有声书制作团队、内容创意工作者)来说,这套工具的垂直度较高。

部署成本相对可控,显卡要求在业界算中等水平。如果你有多人对话配音的需求、或想在内容中融入方言元素,这个项目值得一试。建议先通过一键包或在线Demo体验效果,再决定是否本地部署。

后续我会继续关注这个项目的迭代,特别是在跨语言混合和实时性能方面的改进。欢迎对语音合成感兴趣的朋友保持关注。


如需获取一键包可以关注「苏米客」公众号,回复「sou」关键词。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
#SoulX #SoulX-Podcast #方言tts #语音克隆 
收藏 1
Next.js 原生 MCP 来了:为什么 AI 编程在 Web 开发中需要这一层感知
基于MiniMax Agent的端到端开发体验,打造AI原创音乐生成器
推荐阅读
  • AI-Media2Doc:将视频音频自动转化为多风格文档的开源方案
  • Lobe Chat:LLMs 聊天应用与开发框架,AI 大模型操作台
  • 5个Claude Skill覆盖你的可视化全场景,用文字直接生成图表
  • Ghostty Blackhole:用光线追踪黑洞可视化 Claude Code 上下文使用率
  • Leon:开源AI助手,离线运行、语音对话、隐私无忧
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9913 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9785 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7748 5月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
7009 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6856 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6748 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6647 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6627 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5927 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5882 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Perry 开源编译器:把 TypeScript 直接编译为原生二进制,告别 Node.js 运行时依赖
2 BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制
3 PixiJS v8.19 发布:HTML-in-Canvas 正式落地,DOM 进入 GPU 渲染管线
4 FastClaw 开源框架评测:从 OpenClaw 到云原生多 Agent 架构的演进
5 Nub JS 工具链实测:基于 Node 的 Rust 工具集,nub run 比 pnpm 快 24 倍
6 mattpocock/skills 开源项目:14 万 Star,用标准化流程解决 AI 编程意图对齐难题
7 AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
8 DBX 开源数据库客户端:Navicat 轻量替代,SQL 编辑/结构对比/数据迁移全支持
9 Amplication 开源后端代码生成平台:5 分钟生成生产级 CRUD,可商用可私有部署
10 抖音对标账号采集 + 多平台自动发布:开源短视频运营中台工具推荐
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联