语音转文字(ASR)技术在 AI 时代已广泛应用,从会议记录到播客字幕,从在线教育到社交媒体,几乎每一个与语音相关的场景都离不开转录技术的支持。然而,当场景从单人演讲转向多人对话时,传统转录系统面临诸多挑战:多人同时发言、语速飞快重叠、主持人与嘉宾快速切换、同一个人声音在不同环境下差异巨大等。
本周,这一领域迎来重要突破:Soul App 联合西北工业大学 ASLP@NPU 团队及 Moonstep AI,正式开源了端到端多人对话转录模型 SoulX-Transcriber。
SoulX-Transcriber 是一款专为长音频、多说话人场景设计的语音理解模型。与传统依赖级联流水线的系统不同,它采用统一的端到端架构,能够直接从多人对话音频中生成包含时间戳、说话人身份、转录文本的完整结构化结果。
该项目由三方联合打造:
- Soul AI Lab:Soul App 的 AI 技术团队,在语音技术领域有深厚积累,此前还开源过 SoulX-Podcast 播客生成模型
- ASLP@NPU:西北工业大学音频语音与语言处理研究组,国内顶尖的语音技术研究团队
- Moonstep AI:专注于 AI 音频技术的创新公司
从技术路线来看,SoulX-Transcriber 摒弃了传统的"说话人分割 + 语音识别"分开处理的方式,将两个任务融合在一个统一的大语言模型框架中。这种端到端的设计让模型能够更自然地处理多人对话中常见的重叠、快速切换、同性别混淆等棘手问题。
三大核心亮点
1. 性能登顶公开基准测试
在多人对话转录领域,AISHELL-4、AliMeeting 等是公认的权威基准测试数据集。SoulX-Transcriber 在这些测试中均取得领先表现,甚至大幅超越 Gemini 3.1 Pro、Qwen3.5-Omni 等闭源大模型。
更令人印象深刻的是,在内部多领域测试(社交对话、影视剧、播客)中,SoulX-Transcriber 同样表现突出,在社交对话场景下 DER 低至 1.32%。
2. 说话人感知的多阶段训练
SoulX-Transcriber 采用说话人感知的多任务持续预训练 + 有监督微调的两阶段训练方法。这种方法的优势在于:
- 显著增强模型对说话人特征的表示能力
- 大幅提升对多人对话场景的鲁棒性
- 有效缓解同性别说话人混淆、语音重叠、边界划分错误等常见问题
在传统系统中,这些问题往往需要复杂的后处理算法来解决,而 SoulX-Transcriber 通过端到端训练就能自然地处理。
3. 更自然的对话生成与数据增强
为提升模型在真实场景下的泛化能力,团队提出了一套基于说话人特征驱动的音频匹配流水线。通过这种方式,团队能够生成海量高质量的多人对话训练数据,让模型在各种真实场景下都能有出色表现。
快速上手
1. 克隆项目代码并创建环境:
git clone https://github.com/Soul-AILab/SoulX-Transcriber.git
cd SoulX-Transcriber
# 创建 conda 环境
conda create -n soulx_transcriber python=3.12 -y
conda activate soulx_transcriber
# 安装 MS-Swift 和依赖
pip install ms-swift
预训练模型权重已在 Hugging Face 和 ModelScope 开放下载:
- Hugging Face:https://huggingface.co/Soul-AILab/SoulX-Transcriber
- ModelScope:https://modelscope.cn/models/Soul-AILab/SoulX-Transcriber
2. 使用 vLLM-Omni 进行推理:
cd your_env_path/
# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 创建新的 uv 环境(使用阿里云镜像)
uv venv vllm_omni --python 3.12 --seed --index-url https://mirrors.aliyun.com/pypi.simple/
# 激活 uv 环境
source vllm_omni/bin/activate
# 安装 vLLM
uv pip install vllm --torch-backend=auto --index-url https://mirrors.aliyun.com/pypi.simple/
# 安装 vllm-omni
uv pip install vllm-omni --index-url https://mirrors.aliyun.com/pypi.simple/
3. 运行推理脚本:
source your_env_path/vllm_omni/bin/activate
bash ./inference.sh
应用场景
- 会议记录:自动生成带说话人标注的会议纪要
- 播客字幕:为播客节目自动生成精准字幕,区分不同嘉宾
- 影视剧台词提取:自动提取影视剧台词,区分不同角色
- 在线教育:记录课堂讨论,生成结构化学习资料
- 社交媒体内容分析:分析语音直播、语音聊天室内容
- 法律取证:精准转录多人对话录音材料
- 医疗问诊记录:记录医患对话,生成结构化病历
相关链接
- 项目页面:https://soul-ailab.github.io/soulx-transcriber/
- GitHub:https://github.com/Soul-AILab/SoulX-Transcriber