当前位置：首页 » AI开源项目

pyVideoTrans 开源视频翻译工具：语音识别+翻译+配音+声音克隆一站式解决方案

1月前 AI开源项目 506 0

pyVideoTrans 是一款功能强大的开源视频翻译工具，由开发者 jianchang512 维护。

它在 GitHub 上已获得 17.6K Star，核心目标是将视频从一种语言无缝转换为包含另一种语言配音和字幕的视频，集成了语音识别、字幕翻译、AI 配音、音视频合成的完整自动化流水线。

核心功能

全自动视频翻译流水线

pyVideoTrans 最吸引人的地方是它的全自动化流程。上传一个视频，它会依次完成四个阶段的处理：

语音识别（ASR）：识别视频中的语音，生成带时间轴的字幕
字幕翻译：将源语言字幕翻译成目标语言
语音合成（TTS）：根据翻译后的字幕生成配音
视频合成：将新的音频、字幕与原视频合并对齐

整个过程一键完成，不需要一步步手动操作。

声音克隆

pyVideoTrans 集成了 F5-TTS、CosyVoice、GPT-SoVITS 等声音克隆模型，支持零样本语音克隆。只需要提供一小段原说话人的声音，就能用相同的音色生成目标语言的配音，听起来就像原说话人自己在说另一种语言。这个功能对于处理访谈、讲座等视频特别有用。

多说话人识别

对于有多个人说话的视频，pyVideoTrans 支持说话人识别（Speaker Diarization），能够自动区分不同的说话人。可以给不同的说话人分配不同的 AI 配音角色，处理对话类视频时不会出现所有人都用同一种声音的尴尬情况。

每阶段手动校对

虽然是自动化流程，但在语音识别、字幕翻译、配音的每个阶段都可以暂停下来，手动校对和修改，确保最终效果符合要求。

丰富的模型和 API 支持

pyVideoTrans 支持市面上主流的各种模型和 API：

语音识别（ASR）：

本地模型：Faster-Whisper、Qwen-ASR
在线 API：OpenAI Whisper、阿里 Qwen、字节跳动火山、Azure、Google 等

字幕翻译：

AI 翻译：DeepSeek、ChatGPT、Claude、Gemini、MiniMax、Ollama（本地）、阿里百炼等
传统翻译：Google、Microsoft 等

语音合成（TTS）：

免费：Edge-TTS
本地模型：F5-TTS、CosyVoice、GPT-SoVITS、ChatTTS 等
在线 API：OpenAI、Azure、Minimaxi、302.AI 等

其他实用功能

音频转录/字幕生成：批量将音频或视频转换为 SRT 字幕文件，支持说话人识别
SRT 字幕翻译：批量翻译 SRT 字幕文件，保留原有时间码和格式
文稿对齐与打轴：根据音视频及已有的文字稿，将文字稿转为时间轴精准的 SRT 字幕
实时语音转文字：支持实时监听麦克风，并将说话声转为文字
人声分离：可以分离视频中的人声和背景音乐
命令行支持：提供 CLI 接口，支持无头运行，方便服务器部署或批量处理

快速上手

Windows 用户（推荐）

Windows 用户使用预打包版本最简单：

下载：访问 GitHub Releases 页面，下载最新的 win-pyvideotrans-v4.00 版本
解压：将压缩文件解压到一个路径，如 D:\pyVideoTrans（注意：路径不要包含中文、空格或特殊符号）
运行：双击文件夹内的 sp.exe 启动软件

首次启动可能需要几十秒甚至 2-3 分钟，请耐心等待。

源码部署（macOS / Linux / Windows 开发者）

1. 环境要求：

Python 3.10-3.12
FFmpeg

2. 安装 uv（推荐的包管理工具）：

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

3. 克隆项目并安装依赖：

git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
uv sync

4. 启动软件：

# 启动 GUI 界面
uv run sp.py

# 或者使用 CLI
uv run cli.py --help

5. （可选）GPU 加速配置：

如果有 NVIDIA 显卡，可以安装 CUDA 版本的 PyTorch 加速处理：

uv remove torch torchaudio
uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128
uv add nvidia-cublas-cu12 nvidia-cudnn-cu12

命令行使用示例

# 视频翻译
uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en

# 音频转字幕
uv run cli.py --task stt --name "./audio.wav" --model_name large-v3

# 字幕翻译
uv run cli.py --task sts --name "./subtitle.srt" --target_language_code en

# 文字配音
uv run cli.py --task tts --name "./subtitle.srt" --voice_role "zh-CN-YunyangNeural" --target_language_code zh-cn

总结

pyVideoTrans 是一款功能全面、实用且开源的视频翻译工具，它把复杂的视频翻译流程简化成了一键操作，还支持声音克隆、多说话人识别等高级功能。对于经常需要处理外文视频的朋友来说，这个工具绝对值得一试。

项目的文档也非常完善，官方网站提供了详细的教程和 FAQ，还有在线问答社区。

开源地址

GitHub：jianchang512/pyvideotrans

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：pyVideoTrans 开源视频翻译工具：语音识别+翻译+配音+声音克隆一站式解决方案

请登录后发表评论