「Talk to 峰哥」是一个开源项目,核心玩法是用 AI 实时克隆一个人的声音和性格,然后跟他进行真正的语音聊天。不是文字转语音的机械朗读,而是像打电话一样来回对话,延迟压到了 1 秒以内。
峰哥只是第一个完整 demo,项目支持替换为其他角色——只要准备好语音素材和人格描述即可。
核心功能
- 音色克隆:15-45 秒语音素材就能复刻一个人的声音,基于开源 VoxCPM 模型,效果优于市面上多数方案
- 人格注入:不只是声音像,口头禅、思维方式、说话节奏都能模仿,基于「女娲 Skill」的蒸馏方法论
- 实时对话:完整链路为用户说话 → 语音识别 → 大模型思考 → 语音合成 → 播放回复,工程延迟控制在 1 秒内
- 可替换角色:有文档指导如何替换为其他人物
- 记忆系统(可选):基于 OpenViking,能记住对话中用户提过的事,下次聊天可 recalled
技术栈
项目采用模块化设计,每个环节都有备选方案:
- 实时传输:LiveKit
- 语音识别:Cartesia ink-whisper
- 大模型推理:MiniMax-M2.7(国产、无需翻墙、响应快)
- 语音合成:VoxCPM(本地 GPU)/ MOSS-TTS(CPU 可跑)/ Cartesia Sonic(云端,$5/月)
部署方式
最简单的方法是交给 AI 编程助手(Claude Code、Cursor、Codex),让它读取 .env.example 自动配置。手动部署步骤:
- 克隆仓库,安装 Python 3.12+ 和 uv 包管理器
- 安装 LiveKit Server(macOS 可直接
brew install livekit) - 复制
.env.example为.env.local,填入三个 API Key:Cartesia(语音识别,免费注册)、MiniMax(大模型)、TTS 方案 - TTS 方案选择:有 NVIDIA 显卡(8G+ 显存)推荐 VoxCPM;无显卡可用 MOSS-TTS 或 Cartesia Sonic
- 启动:双击
Talk-to-Me-V3.6.command,或分别运行 LiveKit Server、Agent Worker、Web Server - 浏览器访问
127.0.0.1:8766即可开始对话
GitHub:YeJe-cpu/talk-to-fengge
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。