TTS - 苏米客

本地离线语音方案：SenseVoiceSmall + MeloTTS 组合实战指南

本地离线语音方案一直是开发者的痛点。云端语音服务虽然方便，但在电梯、地下车库、飞机上等无网场景完全失效。本文对比并推荐了"SenseVoiceSmall（语音识别）+ MeloTTS（语音合成）"组合，两个模型加起来不到 500MB，在普通…

127

5天前

AI学习教程

7款免费文本转语音工具盘点，效果堪比付费软件

想做短视频配音，又不想花钱买专业配音软件？这两年免费 TTS 工具的进步非常大，一年前还是电子音，现在不少工具的还原度已经能媲美付费产品了。以下是 7 款真正好用的免费文本转语音工具，按场景分类推荐。 TTSMaker（马克配音）&mda…

497

2周前

AI工具集合

VoxFlow Studio：一站式AI语音生成平台，支持TTS/克隆/播客/多语言配音

今天发现一个很有意思的 AI 语音平台——VoxFlow Studio。它把 TTS（文本转语音）、声音克隆、播客生成、视频配音、幻灯片制作全部整合到一个平台里，支持 5 种语言、200+ 种预设声音，还能在 10 …

291

2周前

AI产品百科

字节 Seed-Audio 1.0 实测：从语音合成到语音创作的突破

字节的多模态模型，这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0，结果不废话，先看一个具体的 Case。让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围，全部是一个 Prompt…

460

2周前

AI产品百科

VoxCPM2：国产开源 2B 参数 TTS 模型，支持 30 种语言与语音克隆

VoxCPM2：国产开源 2B 参数 TTS 模型，支持 30 种语言与语音克隆 OpenBMB 团队发布了 VoxCPM2 文本转语音（TTS）模型。该模型拥有 2B 参数，支持语音克隆、语音设计和高质量语音合成，涵盖英文、中文、日语、韩…

497

1月前

AI产品百科

OmniVoice Studio：本地运行的开源 AI 声音克隆和视频配音工具

OmniVoice Studio：本地运行的开源 AI 声音克隆工具 OmniVoice Studio 是一个开源的 ElevenLabs 替代方案，支持实时听写、零样本语音克隆、视频配音，并且可以在桌面端本地运行。对经常做视频、播客、课…

1435

1月前

AI开源项目

Voicebox：开源声音克隆工具，本地运行不耗Token，支持多国语言

制作视频时，很多人希望语音能更有特色——无论是音色还是语气。市面上很多工具要么声音固定，要么需要充值才能使用声音克隆功能。今天介绍的 Voicebox 是一款开源免费的声音克隆工具，所有数据和模型都运行在本地，普通…

590

2月前

AI产品百科

Voicebox 开源：本地语音克隆神器，7 个 TTS 引擎 + 多轨道编辑器

又发现一个本地语音克隆神器，开源了。 ElevenLabs 在 2023 年的爆火，说明了 AI 语音合成的需求是很旺盛的。大家都渴望着能用自己的声音生成配音，或者克隆某个喜欢的音色，于是纷纷选择订阅各种在线服务。当多数人兴致勃勃想搞 A…

1202

2月前

AI开源项目

Gemini 3.1 Flash TTS 实测：3 个避坑指南 +2 个 Audio Tags 神技详解

苏米注：Gemini 3.1 Flash TTS 发布后，我花了 3 小时深度测试，发现了 3 个官方没说清楚的坑和 2 个实用神技。今天这篇文章帮你避开这些坑，同时充分利用它的强大功能。一、坑①：中文发音偶尔翻车，专业术语直接"翻译腔…

827

2月前

最近在整理开源AI项目时，发现了一个有意思的现象：很多开发者在寻找TTS（文本转语音）方案时，往往陷入一个困境——要么模型动辄几百MB，要么必须依赖GPU和云服务。而实际上，许多应用场景（比如嵌入式设备、离线场景、…

831

3月前

AI开源项目

#TTS