10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

字节 Seed-Audio 1.0 实测:从语音合成到语音创作的突破

1小时前 AI产品百科 11 0

字节的多模态模型,这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0,结果不废话,先看一个具体的 Case。

让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围,全部是一个 Prompt 直接生成的,没有任何后期处理。而且 Prompt 非常简单,不需要任何专业词汇。

图片 1

这是我测试的第一个 Case。生成出来的时候,忍不住喊了一声——太牛了。这完全已经不是传统的 TTS 模型了。

之前的 TTS 模型更多是在做语音合成:克隆一个已有的声音,或者通过提示词描述一种声音,最后生成一段音频。但 Seed-Audio 1.0 是在做纯粹的语音生成——模型会思考音频本身处在什么环境中、带着什么情绪,然后再把这一切转化为声音。

比如下面这个案例:风格可以从激昂到平淡任意转换,背景音可以有哨声、观众呐喊声等等。

图片 2

短短十几秒,从后场推进到最后完成射门,节奏非常干净。主播一说:"这就是世界杯的魅力。一瞬间,就能改变整场比赛。"最后让电视回放声和球迷欢呼声慢慢淡出。

太震撼了。Seed-Audio 1.0 这次带来的变化,和当时 Seedance 2.0 给视频模型领域带来的变化非常类似。当时 Seedance 2.0 最让人触动的一点是:终于可以直接描述脑海里的画面,而不用再思考镜头应该怎么拍。今天的 Seed-Audio 1.0 给我的感觉也很像。

过去做音频的时候,我们更多是在描述声音本身:音色是什么,语气是什么,情绪是什么。但这次发现,自己开始描述一个故事。比如杜甫刚刚听到收复失地的消息时是什么状态——是激动,是释然,还是带着一点不敢相信。

这些东西以前都需要通过配音、音效和后期一点点拼出来。现在只需要把脑海中的画面写出来,剩下的事情模型会把它变成这个场景中的声音。背景音乐、环境音效和人声统一生成。

再看一个 Case:这是生成的截图,一次直出,连抽卡都没抽。就这个效果,甚至可以直接当成品来用。

图片 3

人物在说话时的那种试探、迟疑、思考的情绪居然被表达出来了。Seed-Audio 1.0 模型处理得非常好。这个能力完全可以用在真实的影视剧配音当中了。

在影视剧里,一个角色的音色是固定的,但同一个人会经历完全不同的情绪——从开心、愤怒,到悲伤、绝望,甚至崩溃。这些变化其实比音色本身更难。过去很多模型听起来只是同一个声音换了一种语气,本质上还是在念稿。现在 Seed-Audio 1.0 完全可以搞定。

从语音合成走向语音创作

Seed-Audio 1.0 让我第一次意识到,语音模型可能正在从语音合成走向语音创作。

过去这些年,整个 TTS 行业都在卷拟真度、情绪控制和声音克隆,目标是让 AI 把一句话念得越来越像真人。这背后是一套典型的语音合成逻辑:文字是输入,声音是输出。中间优化的所有东西,无论是音色克隆、情绪表达还是语速控制,本质上都在服务同一个目标——把声音生成得更真实。

但 Seed-Audio 1.0 让我看到了另一种逻辑。语音合成关注的是"一句话怎么念",语音创作关注的是"一个场景应该怎么被表达"。

顺手试了一个更日常的场景:直播带货。给它的任务不是念一段卖点,而是直接生成一个直播间。生成出来的效果最有意思的地方是,你能听到主播剥荔枝的声音、泡沫箱等等音效。背景里的促销音乐也没有从头到尾平铺,而是一阵一阵往上顶。

也许未来,我们可以直接把一本小说里的文字发给模型,里面有旁白、有对白、有情绪变化、有人物关系、也有环境描写。不需要再手动拆分角色,不需要再单独设计配音方案,直接把整本书交给模型,它自己理解剧情的发展、人物的状态和场景的变化,然后把整个故事演绎出来。

苏米注:如果真到了那一天,我们创作音频的方式可能会和今天完全不同。这是我第一次看到音频创作未来的模样。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:字节 Seed-Audio 1.0 实测:从语音合成到语音创作的突破
#Seed-Audio #字节跳动 #音频生成 #TTS #多模态 
收藏 1
Anthropic 内部管理分享:高 Agency 与高 Accountability 如何共存
webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
推荐阅读
  • WeShop: 基于人工智能的AI模特产品商拍工具
  • Thinking Line:AI驱动的矢量化与涂鸦创作工具,一键将图像与手绘草图转为可编辑矢量图
  • 灰豚数字人:AI数字人平台,覆盖全行业的AI数字人自动化直播
  • AniFun AI:AI动漫创作工具,包括漫画创作、角色设计、AI 动漫生成等
  • C知道:CSDN专为开发者打造的AI搜索引擎,AI编程问答、AI对话帮你解决编程难题
评论 (0)
请登录后发表评论
分类精选
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
17710 1年前
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
17328 1年前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
15592 10月前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
15394 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
15361 1年前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
14067 7月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
13848 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
13131 1年前
FantasyGF:AI虚拟女友聊天平台,定制你的AI女友聊天
12632 1年前
抖音即创AI: 一站式智能AI创作管理平台
11828 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 字节 Seed-Audio 1.0 实测:从语音合成到语音创作的突破
2 Tabbit 浏览器国际版:免费使用 Claude、GPT、Gemini 顶级模型
3 Otty 轻量终端:Typora 团队新作,多标签+分屏+轻量文件浏览,比 IDE 更轻
4 LiteParse:不到 5MB 的本地 PDF 解析工具,速度提升 100 倍
5 百度 DuMate :系统级 AI 助手,跨软件自动化处理办公任务
6 Marvis 实测:腾讯新出的 AI Agent 工具,能帮你操控电脑
7 Synara:Claude Code、Codex 的统一本地桌面 Vibe 工作台,开源免费
8 GLM-5.2 + ZCode vs GPT-5.5 + Codex 实测对比:国产 Coding 模型能否一战?
9 办公小浣熊桌面端2.0:比OpenClaw和Hermes更全面的AI办公助手
10 DeepSeek-GUI深度体验:从想法到计划,AI项目管理新范式
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联