当前位置：首页 » AI开源项目

LFM2-Audio-1.5B：1.5B参数！支持本地实时语音转录

17小时前 AI开源项目 40 0

最近在体验一批新发布的音频AI模型时，我注意到一个有趣的现象：云端语音服务越来越便宜，但对隐私敏感、网络受限或追求极低延迟的应用场景，本地离线方案的需求反而在上升。

Liquid AI最近发布的LFM2-Audio-1.5B引起了我的关注——不是因为参数量大，而是因为它用相对轻量的架构证明了一个观点：本地实时语音处理不再是高端硬件的专属，普通消费级设备也能胜任。今天就来拆解一下这个项目的设计思路和实际价值。

项目概览

LFM2-Audio-1.5B是Liquid AI开源的端到端音频基础模型，核心特点是参数量精简但功能完整。

其架构组成包括：

语言模型骨干：1.2B参数的LFM2基础模型
音频编码器：基于FastConformer架构，115M参数
音频分词器：集成Kyutai的Mimi编码器，支持8码本
上下文窗口：32,768个token
精度支持：bfloat16

与大多数音频AI方案不同的是，这不是一个"ASR+TTS"的组件拼接方案，而是一个统一的多模态端到端模型，文本和音频在同一个模型内部流动和转换。

核心功能与生成策略

该模型支持两种生成模式，分别应对不同的应用需求：

生成策略	工作机制	适用场景
交错生成（Interleaved）	文本和音频token按固定模式交替输出，优先最小化首token延迟	实时语音对话、流式交互
顺序生成（Sequential）	通过特殊token决定模态切换时机	ASR、TTS等单向任务

这种灵活性的设计意味着同一个模型可以处理多种音频相关任务，无需维护多个专用模型。

应用场景与使用方式

官方文档提供了三种典型的命令行调用示例：

1. 语音转文字（ASR）

./llama-lfm2-audio \
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -sys "Perform ASR." \
    --audio $INPUT_WAV

2. 文字转语音（TTS）

./llama-lfm2-audio \
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -sys "Perform TTS." \
    -p "My name is Pau Labarta Bajo and I love AI" \
    --output $OUTPUT_WAV

3. 带语音风格控制的TTS

./llama-lfm2-audio \
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \
    -sys "Perform TTS. Use the following voice: A male speaker delivers a very expressive and animated speech, with a low-pitch voice and a slightly close-sounding tone." \
    -p "What is your name man?" \
    --output $OUTPUT_WAV

从命令行接口来看，部署的学习成本相对较低，支持快速集成到现有应用。

性能对标

模型的轻量级设计容易让人担心性能折扣，但实测数据说明了另一个故事：

对比维度	LFM2-Audio-1.5B	竞争对手	说明
VoiceBench综合得分	56.78	Moshi-7B: 29.51	参数量少80%，性能领先
ASR词错率（WER）	7.24%	Whisper-large-V3: 7.93%	可比的识别准确度
vs Qwen2.5-Omni-3B	1.5B参数	3B+参数	多数指标接近，效率优势明显

这组对比展示了Liquid AI在模型压缩和优化上的工程能力——用更少的参数实现可竞争的性能水平。

现状与限制

需要说明的是，当前版本仅支持英文，这是采用该方案时需要评估的重要约束。如果你的应用涉及多语言场景，还需要结合其他方案或等待后续更新。

相关项目推荐

如果你在探索本地AI方案，以下项目可能也值得关注：

EdgeVec：浏览器原生向量数据库，为本地AI应用提供存储和检索能力
Whisper系列：OpenAI的开源ASR模型，支持多语言，适合作为对比基准
VITS/Piper：轻量级TTS模型，专注于离线语音合成

总结

作为一名经常接触AI开源项目的产品经理，我的观察是：本地优先正在从边缘需求转向主流考量。

LFM2-Audio-1.5B的出现说明了一个成熟的趋势——端到端音频处理模型已经可以在消费级硬件上高效运行，这对以下场景有直接价值：

隐私敏感应用（医疗、执法、金融）
网络不稳定或离线场景（边缘设备、飞行模式）
实时性要求高的交互（语音助手、游戏NPC）
成本控制关键的大规模部署

当然，这个项目的缺点也很明确——英文限制降低了通用性。但从技术演进的角度，这正是一个值得持续观察的方向。

如果你的团队在评估本地音频处理方案，这个项目应该纳入技术选型的对标清单。

项目地址：https://github.com/Liquid4All/liquid-audio

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：LFM2-Audio-1.5B：1.5B参数！支持本地实时语音转录

请登录后发表评论

LFM2-Audio-1.5B：1.5B参数！支持本地实时语音转录

文章目录

关注「苏米客」公众号