当前位置：首页 » AI最新动态

Fun-Audio-Chat：阿里巴巴发布全新开源语音交互大模型

3小时前 AI最新动态 19 0

在这个大模型满天飞的时代，我们似乎已经习惯了和 AI 文字聊天时的“秒回”与“博学”。但一旦切换到语音通话模式，那种“丝滑感”往往瞬间消失——要么是由于网络延迟导致的尴尬留白，要么是 AI 说话时那股挥之不去的“机器味”，更别提当你想要打断它时，它还在自顾自地念经。

我们不禁要问：为什么让 AI 像真人一样说话这么难？

最近，阿里通义实验室悄悄丢出了一个“王炸”——Fun-Audio-Chat。

这不仅是一个新的语音大模型，更是一套试图从架构底层解决语音交互痛点的全新方案。

今天，我们就扒开那份长达数十页的技术报告，不聊晦涩的公式，用大白话带你看懂：为了让你和 AI 的对话像和老友闲聊一样自然，工程师们到底在后台搞了什么“黑科技”。

一、核心痛点：大脑转得慢，嘴巴动得快？

在深入了解 Fun-Audio-Chat 之前，我们得先聊聊现在语音模型面临的一个核心尴尬，学术界称之为“时间分辨率失配”（Temporal Resolution Mismatch）。

听起来很高大上？其实道理很简单。

想象一下，人类的语言（文本）其实是高度浓缩的信息。比如“你好”这两个字，在文本大模型（LLM）看来就是两个 Token（词元）。但是，如果要把这两个字变成声音，即使是短短的一秒钟，也包含了大量的信息——音调、音色、停顿、换气。

通常来说，语音数据的“帧率”很高，大约是 25Hz（每秒25个单位）。而文本处理的节奏很慢，大约是 3Hz（每秒3个单位）。

这就导致了一个巨大的矛盾：

如果强行让聪明的“大脑”（LLM）去处理密密麻麻的语音信号，大脑会被这些琐碎的声学细节淹没，变得“反应迟钝”，还会消耗巨大的计算资源（GPU 都在燃烧）。
如果把语音信号压缩得太狠，声音就会变得模糊不清，听起来像个含着热茄子的机器人。

这就是语音交互的“不可能三角”：低延迟、高质量、低算力消耗，难以兼得。

Fun-Audio-Chat 的破局之道：双分辨率架构（DRSR）

Fun-Audio-Chat 的工程师们想出了一个绝妙的办法：由繁化简，再由简入繁。

他们设计了一种叫做 DRSR（Dual-Resolution Speech Representations，双分辨率语音表征） 的架构。

这个架构的核心逻辑可以理解为“分工合作”：

1. 骨干网络的“极简主义”：5Hz 的宏观调控

既然语音信号太密集，那就“打包”处理。模型在输入端引入了一个“分组（Grouping）”机制。它把原本每秒 25 个的语音 Token，每 5 个打包成一组。

这样一来，真正进入 LLM 核心骨干网络（Backbone）的数据频率，被强行降到了 5Hz。

这样做的好处是什么？

省钱省力： 序列长度直接缩短了 5 倍！这意味着显卡的显存占用和计算量大幅下降。根据报告数据，这直接减少了接近 50% 的 GPU 训练工时。
更聪明： 这种低频率的信号更接近文本的节奏，让 LLM 能够更专注于理解语义，而不是纠结于某个音节发音这种细枝末节。

2. 生成头部的“精细还原”：25Hz 的高保真输出

但是，如果直接输出 5Hz 的声音，那听起来肯定像是在敲摩斯密码，断断续续且模糊。

所以，在模型输出端，工程师设计了一个专门的 SRH（Speech Refined Head，语音精细化头部）。当骨干网络规划好“大概要说什么”之后，这个 SRH 就像一个专业的配音演员，把那些被压缩的信号“解压”，重新拆解回 25Hz 的高精度信号。

总结一下： Fun-Audio-Chat 的大脑（LLM）在 5Hz 的低速公路上思考策略，保证逻辑清晰且省油；而嘴巴（SRH）在 25Hz 的高速公路上合成声音，保证字正腔圆。这种“双轨制”设计，完美平衡了计算效率和生成质量。

二、拒绝“学了语音忘文本”：神奇的鸡尾酒疗法

搞过多模态模型训练的朋友都知道一个噩梦：灾难性遗忘（Catastrophic Forgetting）。

当你拿着一个已经读过万卷书的文本大模型（比如 Qwen），强行按着它的头去学海量的语音数据时，它往往会发生“脑萎缩”——语音是学会了，但原来会写的诗、会解的题，全忘了。它变成了一个“文盲”的语音助手。

为了解决这个问题，Fun-Audio-Chat 没有选择昂贵且耗时的从头预训练（Pre-training），而是采用了一种名为 Core-Cocktail（核心鸡尾酒） 的后训练策略。

这套策略像极了调制一杯完美的鸡尾酒，分为两步走：

第一步：猛火爆炒（高学习率全量微调）

首先，模型使用较高的学习率（从慢慢降到）对所有参数进行全量微调。这就像是把食材大火爆炒，目的是让模型迅速适应语音任务，把音频编码器、适配器和 LLM 也就是“身体各个部件”先磨合好。

但这时候，模型的“文本脑子”已经有点受损了。

第二步：旧梦重温（模型融合）

这时候，工程师拿出了“后悔药”。他们把第一步训练好的模型参数（记为），和最原始、没学过语音的纯文本基座模型参数（记为），进行了一次加权融合。

公式非常简单粗暴：

这里的被设定为 0.5。也就是说，一半是新学的语音能力，一半是原本扎实的文本功底。这一步神奇地把模型拉回到了一个“既能听懂话，又没忘掉书本知识”的平衡点。

第三步：文火慢炖（低学习率精调）

融合后的模型，再使用极低的学习率（从降到）进行第二阶段的微调。这一步是为了消除融合带来的缝隙，让模型在保留文本能力的同时，进一步打磨语音生成的细腻度。

三、不仅仅是“能说话”，还要“会聊天”：DPO 的进阶之路

经过上面的训练，模型已经“能说话”了，但它可能还是个直男——说话没感情，或者听不懂话外之音。为了让它更有“人味”，Fun-Audio-Chat 引入了 多任务 DPO（Direct Preference Optimization，直接偏好优化）。

这就像是给 AI 请了一位礼仪老师，专门教它人类喜欢什么样的回答。训练数据覆盖了四个维度，缺一不可：

鲁棒性（Robustness）： 现实环境是很嘈杂的。训练数据中加入了很多背景噪音、口音各异的语音。AI 必须学会“闹中取静”，在嘈杂环境下依然能精准识别你的指令。
指令遵循（Instruction Following）： 当你要求“用悲伤的语气读这首诗”或者“用像小孩子一样的声音说话”时，AI 不能只读内容，必须精准执行这些关于风格、音色、情感的元指令。
音频理解（Audio Understanding）： 不仅仅是把声音转成字。AI 需要听懂声音背后的物理世界。比如听到一声狗叫，它不仅要识别出“汪汪”，还要理解这是一只狗，甚至能判断狗的情绪。
语音共情（Speech Empathic）： 这是最高级的要求。如果用户说“我今天好累啊”，AI 不能冷冰冰地回“请注意休息”。DPO 训练让模型学会识别用户声音中的情绪线索（是沮丧、愤怒还是开心），并生成带有相应情感色彩的语音回复。

数据说话： 在针对情感控制和语速控制的 VStyle 评测中，Fun-Audio-Chat 的中文情感控制得分达到了 4.00，语速控制得分 4.20，这意味着它不仅懂你的情绪，还能配合你的聊天节奏。

四、真正的“全双工”：你可以随时打断它

传统的语音助手大多是“半双工”的——就像对讲机。必须等它把话说完，你才能说下一句；或者你得按个按钮打断它。这非常反人类，因为真人的对话是充满了插话、重叠和语气词的。

Fun-Audio-Chat 推出了 Duplex（全双工） 版本，试图还原真实的交谈体验。

怎么做到的？

它采用了一种并行的双流架构。简单来说，当 AI 的嘴巴（输出端）正在说话时，它的耳朵（输入端）依然是张开的。它可以一边生成语音，一边接收你新的语音输入。

训练数据的秘密

全双工的训练数据非常稀缺。研究团队通过一种巧妙的方法，将高质量的普通对话数据，人工合成为模拟全双工场景的数据——比如强行插入一段“打断”信号，或者让两段对话重叠。

效果炸裂

在全双工交互的 轮次交替成功率（Turn-taking Success Rate） 测试中：

Fun-Audio-Chat-Duplex-30B 版本达到了完美的 100.00%。
即使是轻量级的 8B 版本，也达到了 99.94%。

这意味着，无论你什么时候插嘴，它都能精准地停下、倾听，并给出反应，而不是像老式复读机一样自顾自地念完。相比之下，著名的 Moshi 模型得分为 99.77%，而 FreezeOmni 只有 93.87%。

五、是骡子是马，拉出来溜溜：硬核评测数据

说了这么多原理，这模型到底好不好用？让我们看看它在各大权威榜单上与 GPT-4o、Gemini 等顶流模型的“神仙打架”结果。

1. 语音问答与理解能力（OpenAudioBench & VoiceBench）

这是考量模型“智商”的基本盘。

在 OpenAudioBench 上，Fun-Audio-Chat-8B 拿下了 76.61% 的总分，稳居第一。作为对比，Kimi-Audio 的得分是 69.08%，GLM-4-Voice 是 57.70%。
在 VoiceBench 上，它同样以 83.21% 的高分领跑。
特别值得一提的是安全性（Safety），在 AdvBench 测试中，它达到了 98.65% 的拦截率。这意味着你想套路它说一些不该说的话，门都没有。

2. 让 AI 帮你干活：函数调用（Function Calling）

现在的 AI 不能只陪聊，还得能干活（比如“帮我定个闹钟”、“查一下明天的天气”）。这考验的是模型的 Function Calling 能力。

在 Speech-BFCL 基准测试中，Fun-Audio-Chat-8B 的准确率高达 87.63%。
这个成绩甚至超过了闭源的商业模型 GPT-Audio (83.60%) 和 Gemini-2.5-Pro (80.91%)。这就很恐怖了，一个开源小模型，在执行指令的精确度上干翻了商业巨头。

3. 听觉质量与延迟

音质（UTMOS）： 评分 4.37。听感上已经非常接近真人，告别了电子音的生硬。
识别准确率（ASR-WER）： 生成语音转文字的错误率仅为 4.32%，吐字清晰。

六、也有遗憾：它并不完美

作为一篇客观的技术解读，我们不能只报喜不报忧。Fun-Audio-Chat 的技术报告中非常诚实地列出了目前存在的局限性（Limitation）：

记忆力依然是硬伤： 虽然解决了灾难性遗忘，但在极长的多轮对话中，模型偶尔还是会丢失早期的上下文信息。这在需要长逻辑推理的场景下可能会掉链子。
表现力偶尔“抽风”： 虽然它在大部分时候能遵循情感指令，但在某些极其微妙的场景下，生成的语音可能无法 100% 还原你想要的那个“味儿”，或者情感表达不够稳定。
共情波动： 在面对复杂的人类情绪时，它的一致性还有待提高。有时候它能暖到你心坎里，有时候可能反应稍微慢半拍。

七、开发者福利：如何把这玩意儿跑起来？

最最良心的是，Fun-Audio-Chat-8B 是完全开源的！你不需要申请什么白名单，直接就能在 HuggingFace 或 ModelScope 上下载权重。

如果你是技术党，手头有显卡（推理大约需要 24GB 显存，也就是一张 RTX 3090 或 4090 就能跑），那你现在就可以动手了。

简易上手指南：

环境准备： 你需要 Python 3.12 和 PyTorch 2.8.0（注意，这是很新的版本，别用老古董环境）。
核心组件： 你需要下载两个东西：

主模型：Fun-Audio-Chat-8B
语音合成器：Fun-CosyVoice3-0.5B-2512（这就是那个负责 SRH 精细化生成的组件）

启动： 官方贴心地提供了 Web Demo 脚本。

python -m web_demo.server.server --model-path pretrained_models/Fun-Audio-Chat-8B --port 11236

甚至，如果你有两张卡，还可以把 LLM 和 TTS（语音合成）分在两张卡上跑，速度起飞。

结语

Fun-Audio-Chat 的出现，通过 DRSR 双分辨率架构 解决了效率与质量的矛盾，通过 Cocktail 训练策略 解决了多模态遗忘的难题，更通过 全双工设计 让机器对话有了“呼吸感”。

它告诉我们，打造一个顶级的语音模型，不一定非要靠堆砌无限的算力和数据。精巧的架构设计和对训练策略的极致打磨，同样能实现弯道超车。

对于我们普通用户来说，这意味着什么？也许很快，你手机里的那个语音助手，就不再是一个只会设闹钟的“人工智障”，而是一个真正能听出你喜怒哀乐、能和你抢话、能和你深夜畅聊的“数字伴侣”。

项目地址

项目官网：https://funaudiollm.github.io/funaudiochat/
Github仓库：https://github.com/FunAudioLLM/Fun-Audio-Chat
HuggingFace模型库：https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
技术论文：https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Fun-Audio-Chat：阿里巴巴发布全新开源语音交互大模型

请登录后发表评论

Fun-Audio-Chat：阿里巴巴发布全新开源语音交互大模型

一、核心痛点：大脑转得慢，嘴巴动得快？

Fun-Audio-Chat 的破局之道：双分辨率架构（DRSR）

1. 骨干网络的“极简主义”：5Hz 的宏观调控

2. 生成头部的“精细还原”：25Hz 的高保真输出

二、拒绝“学了语音忘文本”：神奇的鸡尾酒疗法

第一步：猛火爆炒（高学习率全量微调）

第二步：旧梦重温（模型融合）

第三步：文火慢炖（低学习率精调）

三、不仅仅是“能说话”，还要“会聊天”：DPO 的进阶之路

四、真正的“全双工”：你可以随时打断它

怎么做到的？

训练数据的秘密

效果炸裂

五、是骡子是马，拉出来溜溜：硬核评测数据

1. 语音问答与理解能力（OpenAudioBench & VoiceBench）

2. 让 AI 帮你干活：函数调用（Function Calling）

3. 听觉质量与延迟

六、也有遗憾：它并不完美

七、开发者福利：如何把这玩意儿跑起来？

结语

项目地址

文章目录

关注「苏米客」公众号

Fun-Audio-Chat：阿里巴巴发布全新开源语音交互大模型

一、 核心痛点：大脑转得慢，嘴巴动得快？

Fun-Audio-Chat 的破局之道：双分辨率架构（DRSR）

1. 骨干网络的“极简主义”：5Hz 的宏观调控

2. 生成头部的“精细还原”：25Hz 的高保真输出

二、 拒绝“学了语音忘文本”：神奇的鸡尾酒疗法

第一步：猛火爆炒（高学习率全量微调）

第二步：旧梦重温（模型融合）

第三步：文火慢炖（低学习率精调）

三、 不仅仅是“能说话”，还要“会聊天”：DPO 的进阶之路

四、 真正的“全双工”：你可以随时打断它

怎么做到的？

训练数据的秘密

效果炸裂

五、 是骡子是马，拉出来溜溜：硬核评测数据

1. 语音问答与理解能力（OpenAudioBench & VoiceBench）

2. 让 AI 帮你干活：函数调用（Function Calling）

3. 听觉质量与延迟

六、 也有遗憾：它并不完美

七、 开发者福利：如何把这玩意儿跑起来？

结语

项目地址

文章目录

关注「苏米客」公众号

一、核心痛点：大脑转得慢，嘴巴动得快？

二、拒绝“学了语音忘文本”：神奇的鸡尾酒疗法

三、不仅仅是“能说话”，还要“会聊天”：DPO 的进阶之路

四、真正的“全双工”：你可以随时打断它

五、是骡子是马，拉出来溜溜：硬核评测数据

六、也有遗憾：它并不完美

七、开发者福利：如何把这玩意儿跑起来？