作为一名产品经理,我一直关注各类 AI 工具在实际工作中的应用潜力。
春节期间,Google 在 Gemini 中上线了Lyria 3 AI 音乐生成功能,这让我产生了浓厚的兴趣。
相比之前的生成能力,这次音乐生成功能开放,特别是其中文支持的完整度,值得深入体验和分享。
Lyria 3模型介绍
Google DeepMind 推出的音乐生成模型 Lyria 3 是此次功能的底层技术。

相比前代版本,该模型在以下维度有明显改进:
| 核心能力 | 具体表现 |
|---|---|
| 歌词自动生成 | 无需用户提供歌词,模型根据提示词自动生成中文/英文/多语言歌词 |
| 风格与音色控制 | 支持精细化控制乐器组合、节奏、情绪等元素 |
| 音质层次 | 生成音轨具有更高的保真度和复杂度,乐器搭配自然流畅 |
| 版权标记 | 所有生成音乐嵌入 SynthID 水印,便于识别 AI 生成内容 |
| 多语言支持 | 中文、英文、德文、法文等多种语言 |
| 导出格式 | 支持带字幕视频和 MP3 文件两种导出方式 |
官方资源:
快速上手:基础操作流程
第一步:访问 Gemini 官网
打开 https://gemini.google.com/app,登录 Google 账户。
第二步:启动音乐生成功能
在消息输入框底部,直接点击"创作音乐"按钮,或在对话中输入音乐描述。

第三步:编写提示词

描述你的音乐需求,包括以下维度:
- 主题与风格:例如"国风武侠""校园青春""复古电子"
- 乐器组合:具体指定使用的乐器,如"大提琴与二胡""钢琴与小提琴"
- 节奏与速度:BPM 值或描述性词汇,如"120bpm 快板""缓慢 70bpm"
- 人声特征:性别、音色、情绪表达等
- 情绪基调:欢快、沉稳、忧伤、恢宏等
第四步:生成与优化
点击生成按钮,Gemini 会在 30 秒内输出一首完整的音乐作品。

如果效果不理想,可以调整提示词重新生成。
第五步:导出使用
选择导出为带字幕视频(MP4)或纯音频文件(MP3)。

实际案例与提示词参考
基于我的体验,以下是几个不同风格的生成案例,包括对应的详细提示词:
案例 1:青春校园歌曲
使用场景:毕业季相关短视频、小红书内容
提示词:
生成一首 30 秒中文校园流行歌曲。男声唱歌,整体氛围温暖清新。速度中速偏慢。前 10 秒钢琴铺垫,中段加入木吉他与轻鼓,副歌旋律明亮,充满青春回忆感。全歌曲有催泪但不沉重的离别主题。
生成特点:歌词自然流畅,钢琴与弦乐的过渡处理得当,人声标准普通话,情绪递进清晰。
案例 2:国风器乐
使用场景:古装短视频、品牌宣传片
提示词:
生成 30 秒纯音乐国风曲目。急促的琵琶轮指开场,随后加入大马士革鼓和交响弦乐群。节奏紧凑,充满刀光剑影的紧张感。中段尺八与钢琴合奏。尺八吹出沧桑气息,钢琴弹奏现代和弦。中西合璧,情绪深沉而温柔,充满画面感。
生成特点:乐器层次分明,节奏张力足,整体呈现出电影级的视听效果。
案例 3:春节喜庆国乐
使用场景:春节营销物料、品牌拜年视频
提示词:
生成 30 秒纯音乐曲目。欢快的唢呐、锣鼓齐鸣,120bpm 的快板,喜气洋洋,充满春节般的热闹氛围。层次丰富但不杂乱。编钟敲击开场,随后百鸟朝凤般的唢呐吹响,搭配大型国乐团,营造辉煌、华丽、极具压迫感的宫廷乐氛围。
生成特点:传统乐器的音色还原度高,节奏稳定,适合作为品牌内容的背景音乐。
案例 4:英文电子流行
使用场景:国际化内容、现代品牌宣传
提示词:
使用英文演唱。【0-10 秒】115bpm,复古明亮的早期数字合成器主音(Synth-Pop),节奏轻快跳跃。【10-20 秒】甜美且充满元气的女声进入,像千禧年代的 MP3 广告曲风格,伴随电子响指声。【20-30 秒】合成器琶音加速,女声转为连续的高音假声,整体氛围充满复古的科技阳光感。
生成特点:英文发音清晰,合成器音色精准,整体呈现出明确的时代风格。
上传图片/视频生成音乐的高级用法
除了文本描述外,Lyria 3 还支持上传视觉内容来生成匹配的音乐:
操作步骤:
在音乐生成界面上传图片或视频截帧

编写简短的描述性提示词,说明期望的音乐氛围
系统自动分析视觉内容并生成相应的配乐和歌词
应用场景:
- 短视频配音:拍完小红书或抖音视频后,上传关键帧,一键生成专属背景音乐
- 内容营销:品牌宣传片或产品演示视频,快速配置风格一致的音乐
- 避免版权风险:AI 生成的音乐带有 SynthID 水印,不存在现成音乐的版权纠纷问题
使用价值评估
优势方面:
- 降低内容制作成本:短视频团队无需额外采购音乐库或委托专业作曲
- 中文支持完整:普通话标准度和歌词生成的自然度达到可用水准
- 版权清晰:所有音乐均为 AI 生成,避免侵权风险
- 定制化程度高:通过精细化提示词可获得高度契合的音乐
当前限制:
- 30 秒时长限制,不适合长篇幅内容
- 功能仍处于 Beta 阶段,偶发生成质量波动
- 需要 Google 账户和网络环境支持
总结
从产品经理的角度看,Gemini 的音乐生成功能代表了 AI 工具在内容生产领域的实际价值。虽然当前版本存在时长限制和稳定性的改进空间,但其在 短视频配音、内容营销、版权风险规避 等方面已具备实用意义。
特别是对于中小内容创作者和品牌方而言,这类功能能够显著降低专业音乐制作的门槛,让创意的表达不再受制于音乐获取成本。我建议在以下场景中重点尝试:
- 短视频平台的背景音乐配置
- 品牌宣传素材的快速迭代
- 小样品或概念验证阶段的音频素材准备
如果你也在使用这个功能,欢迎分享你的创意应用案例,我很感兴趣了解在实际工作中有哪些有趣的玩法。
官方资源:
Lyria 3 官方介绍:https://deepmind.google/models/lyria/
提示词编写指南:https://deepmind.google/models/lyria/prompt-guide/
Gemini 官网入口:https://gemini.google.com/app