今天发现一个很有意思的 AI 语音平台——VoxFlow Studio。它把 TTS(文本转语音)、声音克隆、播客生成、视频配音、幻灯片制作全部整合到一个平台里,支持 5 种语言、200+ 种预设声音,还能在 10 秒内克隆任意声音。

最吸引人的是它的免费额度:每月 10,000 积分,可以克隆 10 个声音,不需要绑信用卡。
VoxFlow Studio 是什么
VoxFlow Studio 是一站式 AI 语音创作平台,核心定位是"把 AI 语音能力开放给每个创作者和开发者"。它不是一个简单的 TTS 工具,而是一整套从文字到音频、从音频到视频、从视频到多语言配音的完整工作流。
平台提供 8 项核心能力:
- TTS(文本转语音)——神经级别的语音合成,生成自然流畅的人声
- Voice Clone(声音克隆)——只需 10 秒音频输入,即可克隆任意声音,保留语调、情感和节奏
- Script Gen(脚本生成)——Agent 驱动的对话写作,自动生成播客脚本和配音文本
- AI Video(视频生成)——自动配音的视频和演示文稿
- Audio Processing(音频处理)——降噪和音质增强
- Voice Library(声音库)——200+ 种预设声音,覆盖 5 种语言
- Skill(技能)——即插即用的 AI Agent 声音技能
- CLI(命令行工具)——终端音频工作流,适合开发者
三大 Agent 产品
VoxFlow 最实用的功能是以 Agent 形式封装的三种创作工具:
Podcast Agent(播客代理)——输入主题或脚本,自动生成多角色对话式播客。支持多声音编排、节奏控制和后期处理。
Voiceover Agent(配音代理)——把任意文本转为专业配音。适合视频旁白、教程解说、广告配音等场景。
Slides Agent(幻灯片代理)——从文字内容直接生成带配音的演示文稿,适合教学、汇报、内容营销。
声音克隆:10 秒还原一个人声
VoxFlow 的声音克隆功能是亮点之一。只需要 10 秒的音频输入,AI 就能分析声音特征并生成克隆模型。克隆后的声音可以保留原声的语调、情感和节奏特征,支持 5 种语言使用。
平台已经累计生成了超过 30,000 个声音克隆。这对内容创作者来说意味着:不需要请配音演员,不需要录音棚,一个人就能完成专业级别的语音内容制作。
开发者能力:给 AI Agent 装上声音
VoxFlow 对开发者非常友好,提供三种接入方式:
MCP Server——通过 MCP 协议给 AI Agent 提供声音技能,让 Agent 在对话中直接使用语音能力。
Agent Skills——即插即用的 AI Agent 技能包,适合 Claude Code、Cursor、Codex 等编程 Agent 直接调用。
OpenClaw Plugin——OpenClaw 插件支持,可以快速集成到现有工作流中。
这意味着开发者不需要自己训练语音模型,不需要处理音频管线,只需要几句配置就能让 AI Agent 获得"说话"的能力。
声音库:200+ 种声音,5 种语言
平台内置了 200+ 种预设声音,覆盖英语、中文、日语等多种语言。每种声音都有在线预览,可以直接试听效果。对于不想克隆声音的用户,直接用预设声音就能满足大部分需求。
定价
VoxFlow 的免费计划已经相当慷慨:
- 每月 10,000 积分免费
- 可以克隆 10 个声音
- 支持播客、视频和幻灯片创作
- 不需要绑定信用卡
付费计划按功能和使用量分级,适合不同规模的用户需求。
适合谁用
播客创作者——快速生成多角色对话式播客,不需要录音设备。
内容创作者——视频配音、幻灯片旁白、广告语音,一站式搞定。
开发者——通过 MCP Server 和 Agent Skills,给 AI Agent 集成语音能力。
教育/企业用户——Slides Agent 可以直接从文本生成带配音的演示文稿,适合教学和汇报。
苏米的评价
VoxFlow Studio 最打动我的一点是:它把"语音创作"这个原本需要专业设备和技能的门槛,降到了"打开网页就能用"的程度。10 秒克隆声音、Agent 自动生成播客、一句话生成带配音的视频——这些在两年前还是"需要找配音演员 + 后期制作"的事,现在一个平台就能搞定。
对于做自媒体的人来说,这意味着你可以用 AI 声音做解说、做播客、做多语言配音,而不需要自己录音。配合 AI 脚本生成,整个内容生产链路变得更加完整。
如果你经常需要语音内容,或者想让 AI Agent "会说话",VoxFlow 值得试试。
网站地址:voxflow.studio