#TTS

NeuTTS Air:首个可离线运行的"拟人语音克隆”TTS模型
作为一个长期关注语音AI与本地部署能力结合的产品经理,我对这个项目的第一印象是:终于有一个真正能离线运行、声音自然、还能“克隆人声”的TTS模型。 我们都知道,语音合成(Text-to-Speech)技术这些年飞速发…
FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆
我一直在关注TTS(Text-to-Speech)的发展,像之前分享的index-TTS2,已经是非常大的突破了。 但随着播客、虚拟角色、智能客服和多模态聊天机器人的普及,对话式语音生成的需求越来越强烈。 但市面上不少方案依然存在两个痛点:…
VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
最近我刷开源项目时,看到面壁团队(OpenBMB)放出了一个非常炸裂的开源工具 VoxCPM:一款 无需分词器的端到端语音生成(Tokenizer-Free TTS)模型,主打两个能力: 上下文感知的自然语音生成和逼真的零样本声音克隆 Vo…
Google语音技术探索:从语音识别到语音合成,ASR 与 TTS 模型的全面梳理
Google 在语音识别(ASR,Automatic Speech Recognition)和语音合成(TTS,Text-to-Speech)领域一直处于技术前沿,推出了多个先进的模型和工具。以下是对 Google 的 ASR 和 TTS …
IndexTTS2:全球首创!B站推出影视级TTS模型,支持零样本语音克隆、情绪双克隆与精准时长控制
在过去几年里,我体验过不少文本转语音(TTS)项目——从开源社区的 XTTS、F5-TTS,到商业化的 ElevenLabs、OpenAI TTS。大多数模型都能把文字变成比较自然的语音,但要达到“影视级…
VibeVoice:微软开源的长文本TTS框架,重新定义语音合成
作为一名产品经理,我一直关注最新的AI语音合成技术,尤其是在长文本、多说话人和高表现力的领域。 最近,微软推出的VibeVoice-1.5B模型深深吸引了我,它不仅在文本转语音(TTS)领域取得了显著突破,还打破了传统TTS技术的限制,能够…
Kyutai TTS:一款开源TTS文本转语音模型,超低延迟语音合成工具
Kyutai TTS 是一款针对实时应用优化的文本转语音模型。它提供超低延迟、高准确率的语音合成,并支持文本流式输入和长音频生成,适用于各种需要实时语音交互的场景,例如语音助手、实时字幕生成等。Kyutai TTS 的独特之处在于其延迟流…
Inworld TTS:AI语音、多语言文本转语音工具,提供多种声音和情感选择
Inworld TTS 是一款经济实惠且高质量的语音 AI 工具。它提供多种语言支持和专业语音定制功能,适用于教育、娱乐、媒体内容创作以及语音助手等多种场景。其极低的延迟和强大的功能使其成为市场上领先的语音合成解决方案。 Inworld …
Play.ht:AI语音合成文本转语音TTS工具,只需在网站上输入、粘贴或导入文本
play.ht是一个AI语音合成和文本转语音(TTS)工具,可以使用最先进的机器学习技术和最自然的合成语音,将文本转换为声音。只需在网站上输入、粘贴或导入文本,然后选择想要的语音、语言和口音,即可生成高质量的语音文件,并下载为MP3或WA…
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
Noiz AI是一个为客户提供与真人无异、极具表现力语音合成能力的AI工具。依托自研的超大语音模型,在成本、效率和定制化服务方面均领先于行业,提供从瞬时生成到专业级声音克隆的多种选择,帮助客户根据需求精准匹配理想的语音体验。3-10秒的录…