10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Fun-Audio-Chat:阿里巴巴发布全新开源语音交互大模型

3小时前 AI最新动态 19 0

在这个大模型满天飞的时代,我们似乎已经习惯了和 AI 文字聊天时的“秒回”与“博学”。但一旦切换到语音通话模式,那种“丝滑感”往往瞬间消失——要么是由于网络延迟导致的尴尬留白,要么是 AI 说话时那股挥之不去的“机器味”,更别提当你想要打断它时,它还在自顾自地念经。

我们不禁要问:为什么让 AI 像真人一样说话这么难?

最近,阿里通义实验室悄悄丢出了一个“王炸”——Fun-Audio-Chat。

这不仅是一个新的语音大模型,更是一套试图从架构底层解决语音交互痛点的全新方案。

今天,我们就扒开那份长达数十页的技术报告,不聊晦涩的公式,用大白话带你看懂:为了让你和 AI 的对话像和老友闲聊一样自然,工程师们到底在后台搞了什么“黑科技”。

一、 核心痛点:大脑转得慢,嘴巴动得快?

在深入了解 Fun-Audio-Chat 之前,我们得先聊聊现在语音模型面临的一个核心尴尬,学术界称之为“时间分辨率失配”(Temporal Resolution Mismatch)。

听起来很高大上?其实道理很简单。

想象一下,人类的语言(文本)其实是高度浓缩的信息。比如“你好”这两个字,在文本大模型(LLM)看来就是两个 Token(词元)。但是,如果要把这两个字变成声音,即使是短短的一秒钟,也包含了大量的信息——音调、音色、停顿、换气。

通常来说,语音数据的“帧率”很高,大约是 25Hz(每秒25个单位)。而文本处理的节奏很慢,大约是 3Hz(每秒3个单位)。

这就导致了一个巨大的矛盾:

  • 如果强行让聪明的“大脑”(LLM)去处理密密麻麻的语音信号,大脑会被这些琐碎的声学细节淹没,变得“反应迟钝”,还会消耗巨大的计算资源(GPU 都在燃烧)。
  • 如果把语音信号压缩得太狠,声音就会变得模糊不清,听起来像个含着热茄子的机器人。

这就是语音交互的“不可能三角”:低延迟、高质量、低算力消耗,难以兼得。

Fun-Audio-Chat 的破局之道:双分辨率架构(DRSR)

Fun-Audio-Chat 的工程师们想出了一个绝妙的办法:由繁化简,再由简入繁。

他们设计了一种叫做 DRSR(Dual-Resolution Speech Representations,双分辨率语音表征) 的架构。

这个架构的核心逻辑可以理解为“分工合作”:

1. 骨干网络的“极简主义”:5Hz 的宏观调控

既然语音信号太密集,那就“打包”处理。模型在输入端引入了一个“分组(Grouping)”机制。它把原本每秒 25 个的语音 Token,每 5 个打包成一组。

这样一来,真正进入 LLM 核心骨干网络(Backbone)的数据频率,被强行降到了 5Hz。

这样做的好处是什么?

  • 省钱省力: 序列长度直接缩短了 5 倍!这意味着显卡的显存占用和计算量大幅下降。根据报告数据,这直接减少了接近 50% 的 GPU 训练工时。
  • 更聪明: 这种低频率的信号更接近文本的节奏,让 LLM 能够更专注于理解语义,而不是纠结于某个音节发音这种细枝末节。

2. 生成头部的“精细还原”:25Hz 的高保真输出

但是,如果直接输出 5Hz 的声音,那听起来肯定像是在敲摩斯密码,断断续续且模糊。

所以,在模型输出端,工程师设计了一个专门的 SRH(Speech Refined Head,语音精细化头部)。当骨干网络规划好“大概要说什么”之后,这个 SRH 就像一个专业的配音演员,把那些被压缩的信号“解压”,重新拆解回 25Hz 的高精度信号。

总结一下: Fun-Audio-Chat 的大脑(LLM)在 5Hz 的低速公路上思考策略,保证逻辑清晰且省油;而嘴巴(SRH)在 25Hz 的高速公路上合成声音,保证字正腔圆。这种“双轨制”设计,完美平衡了计算效率和生成质量。

二、 拒绝“学了语音忘文本”:神奇的鸡尾酒疗法

搞过多模态模型训练的朋友都知道一个噩梦:灾难性遗忘(Catastrophic Forgetting)。

当你拿着一个已经读过万卷书的文本大模型(比如 Qwen),强行按着它的头去学海量的语音数据时,它往往会发生“脑萎缩”——语音是学会了,但原来会写的诗、会解的题,全忘了。它变成了一个“文盲”的语音助手。

为了解决这个问题,Fun-Audio-Chat 没有选择昂贵且耗时的从头预训练(Pre-training),而是采用了一种名为 Core-Cocktail(核心鸡尾酒) 的后训练策略。

这套策略像极了调制一杯完美的鸡尾酒,分为两步走:

第一步:猛火爆炒(高学习率全量微调)

首先,模型使用较高的学习率(从 慢慢降到 )对所有参数进行全量微调。这就像是把食材大火爆炒,目的是让模型迅速适应语音任务,把音频编码器、适配器和 LLM 也就是“身体各个部件”先磨合好。

但这时候,模型的“文本脑子”已经有点受损了。

第二步:旧梦重温(模型融合)

这时候,工程师拿出了“后悔药”。他们把第一步训练好的模型参数(记为 ),和最原始、没学过语音的纯文本基座模型参数(记为 ),进行了一次加权融合。

公式非常简单粗暴:

这里的 被设定为 0.5。也就是说,一半是新学的语音能力,一半是原本扎实的文本功底。这一步神奇地把模型拉回到了一个“既能听懂话,又没忘掉书本知识”的平衡点。

第三步:文火慢炖(低学习率精调)

融合后的模型,再使用极低的学习率(从 降到 )进行第二阶段的微调。这一步是为了消除融合带来的缝隙,让模型在保留文本能力的同时,进一步打磨语音生成的细腻度。

三、 不仅仅是“能说话”,还要“会聊天”:DPO 的进阶之路

经过上面的训练,模型已经“能说话”了,但它可能还是个直男——说话没感情,或者听不懂话外之音。为了让它更有“人味”,Fun-Audio-Chat 引入了 多任务 DPO(Direct Preference Optimization,直接偏好优化)。

这就像是给 AI 请了一位礼仪老师,专门教它人类喜欢什么样的回答。训练数据覆盖了四个维度,缺一不可:

  1. 鲁棒性(Robustness): 现实环境是很嘈杂的。训练数据中加入了很多背景噪音、口音各异的语音。AI 必须学会“闹中取静”,在嘈杂环境下依然能精准识别你的指令。
  2. 指令遵循(Instruction Following): 当你要求“用悲伤的语气读这首诗”或者“用像小孩子一样的声音说话”时,AI 不能只读内容,必须精准执行这些关于风格、音色、情感的元指令。
  3. 音频理解(Audio Understanding): 不仅仅是把声音转成字。AI 需要听懂声音背后的物理世界。比如听到一声狗叫,它不仅要识别出“汪汪”,还要理解这是一只狗,甚至能判断狗的情绪。
  4. 语音共情(Speech Empathic): 这是最高级的要求。如果用户说“我今天好累啊”,AI 不能冷冰冰地回“请注意休息”。DPO 训练让模型学会识别用户声音中的情绪线索(是沮丧、愤怒还是开心),并生成带有相应情感色彩的语音回复。

数据说话: 在针对情感控制和语速控制的 VStyle 评测中,Fun-Audio-Chat 的中文情感控制得分达到了 4.00,语速控制得分 4.20,这意味着它不仅懂你的情绪,还能配合你的聊天节奏。

四、 真正的“全双工”:你可以随时打断它

传统的语音助手大多是“半双工”的——就像对讲机。必须等它把话说完,你才能说下一句;或者你得按个按钮打断它。这非常反人类,因为真人的对话是充满了插话、重叠和语气词的。

Fun-Audio-Chat 推出了 Duplex(全双工) 版本,试图还原真实的交谈体验。

怎么做到的?

它采用了一种并行的双流架构。简单来说,当 AI 的嘴巴(输出端)正在说话时,它的耳朵(输入端)依然是张开的。它可以一边生成语音,一边接收你新的语音输入。

训练数据的秘密

全双工的训练数据非常稀缺。研究团队通过一种巧妙的方法,将高质量的普通对话数据,人工合成为模拟全双工场景的数据——比如强行插入一段“打断”信号,或者让两段对话重叠。

效果炸裂

在全双工交互的 轮次交替成功率(Turn-taking Success Rate) 测试中:

  • Fun-Audio-Chat-Duplex-30B 版本达到了完美的 100.00%。
  • 即使是轻量级的 8B 版本,也达到了 99.94%。

这意味着,无论你什么时候插嘴,它都能精准地停下、倾听,并给出反应,而不是像老式复读机一样自顾自地念完。相比之下,著名的 Moshi 模型得分为 99.77%,而 FreezeOmni 只有 93.87%。

五、 是骡子是马,拉出来溜溜:硬核评测数据

说了这么多原理,这模型到底好不好用?让我们看看它在各大权威榜单上与 GPT-4o、Gemini 等顶流模型的“神仙打架”结果。

1. 语音问答与理解能力(OpenAudioBench & VoiceBench)

这是考量模型“智商”的基本盘。

  • 在 OpenAudioBench 上,Fun-Audio-Chat-8B 拿下了 76.61% 的总分,稳居第一。作为对比,Kimi-Audio 的得分是 69.08%,GLM-4-Voice 是 57.70%。
  • 在 VoiceBench 上,它同样以 83.21% 的高分领跑。
  • 特别值得一提的是安全性(Safety),在 AdvBench 测试中,它达到了 98.65% 的拦截率。这意味着你想套路它说一些不该说的话,门都没有。

2. 让 AI 帮你干活:函数调用(Function Calling)

现在的 AI 不能只陪聊,还得能干活(比如“帮我定个闹钟”、“查一下明天的天气”)。这考验的是模型的 Function Calling 能力。

  • 在 Speech-BFCL 基准测试中,Fun-Audio-Chat-8B 的准确率高达 87.63%。
  • 这个成绩甚至超过了闭源的商业模型 GPT-Audio (83.60%) 和 Gemini-2.5-Pro (80.91%)。这就很恐怖了,一个开源小模型,在执行指令的精确度上干翻了商业巨头。

3. 听觉质量与延迟

  • 音质(UTMOS): 评分 4.37。听感上已经非常接近真人,告别了电子音的生硬。
  • 识别准确率(ASR-WER): 生成语音转文字的错误率仅为 4.32%,吐字清晰。

六、 也有遗憾:它并不完美

作为一篇客观的技术解读,我们不能只报喜不报忧。Fun-Audio-Chat 的技术报告中非常诚实地列出了目前存在的局限性(Limitation):

  1. 记忆力依然是硬伤: 虽然解决了灾难性遗忘,但在极长的多轮对话中,模型偶尔还是会丢失早期的上下文信息。这在需要长逻辑推理的场景下可能会掉链子。
  2. 表现力偶尔“抽风”: 虽然它在大部分时候能遵循情感指令,但在某些极其微妙的场景下,生成的语音可能无法 100% 还原你想要的那个“味儿”,或者情感表达不够稳定。
  3. 共情波动: 在面对复杂的人类情绪时,它的一致性还有待提高。有时候它能暖到你心坎里,有时候可能反应稍微慢半拍。

七、 开发者福利:如何把这玩意儿跑起来?

最最良心的是,Fun-Audio-Chat-8B 是完全开源的!你不需要申请什么白名单,直接就能在 HuggingFace 或 ModelScope 上下载权重。

如果你是技术党,手头有显卡(推理大约需要 24GB 显存,也就是一张 RTX 3090 或 4090 就能跑),那你现在就可以动手了。

简易上手指南:

  1. 环境准备: 你需要 Python 3.12 和 PyTorch 2.8.0(注意,这是很新的版本,别用老古董环境)。
  2. 核心组件: 你需要下载两个东西:
  • 主模型:Fun-Audio-Chat-8B
  • 语音合成器:Fun-CosyVoice3-0.5B-2512(这就是那个负责 SRH 精细化生成的组件)
  1. 启动: 官方贴心地提供了 Web Demo 脚本。
python -m web_demo.server.server --model-path pretrained_models/Fun-Audio-Chat-8B --port 11236

甚至,如果你有两张卡,还可以把 LLM 和 TTS(语音合成)分在两张卡上跑,速度起飞。

结语

Fun-Audio-Chat 的出现,通过 DRSR 双分辨率架构 解决了效率与质量的矛盾,通过 Cocktail 训练策略 解决了多模态遗忘的难题,更通过 全双工设计 让机器对话有了“呼吸感”。

它告诉我们,打造一个顶级的语音模型,不一定非要靠堆砌无限的算力和数据。精巧的架构设计和对训练策略的极致打磨,同样能实现弯道超车。

对于我们普通用户来说,这意味着什么? 也许很快,你手机里的那个语音助手,就不再是一个只会设闹钟的“人工智障”,而是一个真正能听出你喜怒哀乐、能和你抢话、能和你深夜畅聊的“数字伴侣”。

项目地址

  • 项目官网:https://funaudiollm.github.io/funaudiochat/
  • Github仓库:https://github.com/FunAudioLLM/Fun-Audio-Chat
  • HuggingFace模型库:https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
  • 技术论文:https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Fun-Audio-Chat:阿里巴巴发布全新开源语音交互大模型
#FunAudioChat #阿里巴巴 #语音模型 
收藏 1
AI Diagram Generator:一句话让 AI 秒出流程图、思维导图、UML 图等百种图表
Excalidraw:轻量级手绘风格协作画布,支持实时协作、手绘风格的开源在线无限画布工具!
推荐阅读
  • VS Code 开源 Copilot Chat,压力给到 Cursor!
  • 对标 Sora 2,谷歌Veo 3.1悄悄上线,实测体验比想象更惊喜!
  • Trae 突发!即日起 Trae AI 下架所有 Claude 模型
  • Claude Code Plugins 插件系统上线:从代码生成器到可编程AI平台,支持添加自定义功能模块
  • Wildcard野卡停止服务了!钱没了?以后还怎么充值Claude?升级ChatGPT Plus?
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
22513 5月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
21174 7月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14652 10月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
14492 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12952 8月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
12732 8月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
12116 8月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10845 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9577 1年前
Trae Pro 来了,终于可以告别排队了!这价格真香
7677 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 TRAE 国内版 SOLO 面向全部用户开放
2 Fun-Audio-Chat:阿里巴巴发布全新开源语音交互大模型
3 智谱 GLM-4.7 旗舰模型发布:总参数355B,代码能力超越 GPT-5,价格仅 1/7!
4 7 个最新 AI 模型,一周模型上新速览清单
5 微软王炸开源 TRELLIS.2!如何改变 3D 生成的交付方式?
6 限时免费:GLM‑4.6在 Cline 免费开放,VS Code + Cline上手体验
7 扣子Coze重磅上线「扣子编程」,智能体、工作流、网页应用,移动应用通通都是一句话搞定!
8 Gemini 3 Flash 正式发布,比国产 AI 更便宜,免费、极速、吊打前代
9 小米发布MiMo V2 Flash模型,而且支持免费接入 Claude Code
10 Wan 2.6:角色与音色可参考,多镜头更稳定,短视频制作更可控
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联