MiniMax 官方开源了一个 CLI 工具——MiniMax-AI/cli,命令名为 mmx。一行命令即可调用 MiniMax 全家桶 API,覆盖文字、图片、视频、语音、音乐等全部多模态能力。

它能做什么?
mmx 将 MiniMax 的多模态 AI 能力全部整合到一个命令中:
1. 文字(Text)
多轮对话、流式输出、系统提示、JSON 格式输出,标准的 LLM 聊天功能一应俱全。
2. 图片(Image)
文生图,支持比例控制(16:9、1:1 等),支持批量生成。
3. 视频(Video)
异步生成,带进度追踪,生成完成后直接下载到本地。
4. 语音(Speech)
TTS 语音合成,30+ 种声音,支持流式播放。可以管道接入 mpv 直接播放——对脚本自动化感兴趣的人看到这个设计应该会眼前一亮。
5. 音乐(Music)
文生曲、自定义歌词、纯器乐模式、自动生词。还有一个 Cover 翻唱功能——给一段原始音频加一句提示词,生成一个风格全变的翻唱版本。
6. 视觉理解(Vision)
上传本地图片或传入 URL,让 AI 分析描述图片内容。
7. 搜索(Search)
MiniMax 自己的网络搜索能力,可以直接在命令行调用。

七个能力,一个命令搞定。
安装与使用
两行即可安装:
# 终端使用
npm install -g mmx-cli
# 给 AI Agent 使用(Cursor、Claude Code 等)
npx skills add MiniMax-AI/cli -y -g
需要 Node.js 18+ 和 MiniMax 的 Token Plan。安装完成后登录:
mmx auth login --api-key sk-xxxxx
然后即可开始使用:
# 生成图片
mmx image "A cat in a spacesuit"
# 语音合成
mmx speech synthesize --text "你好!" --out hello.mp3
# 音乐生成
mmx music generate --prompt "Indie folk, melancholic" --lyrics-optimizer --out song.mp3
管道支持 — 自动化脚本的标配
语音合成支持管道操作,可以这样使用:
# 从管道输入文本
echo "Breaking news" | mmx speech synthesize --text-file - --out news.mp3
# 或者流式直接播放
mmx speech synthesize --text "Stream me" --stream | mpv -
这对写自动化脚本的人来说,是标配级别的设计。
AI Agent 集成
项目内置了 AGENTS.md,说明它专门为 AI Agent 设计。Cursor、Claude Code 这类 Coding Agent 可以直接把它作为 Skill 集成进来。
以后 AI 帮你写代码的同时,顺手生个配图、配个背景音乐——这个组合会越来越常见。
以前是 AI 作为工具,人来使用。现在是 AI 使用工具,帮你干活。
双区域支持
国内使用 api.minimaxi.com,海外使用 api.minimax.io,一个配置切换,不用改代码:
mmx config set --key region --value cn
对国内开发者来说非常实用。
项目现状
项目 3 月底开始,目前已提交 146 次,版本到 v1.0.7,迭代速度快。
- 675 Star,8 个贡献者
- TypeScript 编写,MIT 协议
- 17 个 Open Issues,4 个 PR 在处理中
项目还很新,想早期参与的可以去看看。
总结
如果你在做内容创作、自动化脚本,或者在折腾 AI Agent 工作流,mmx 值得装一下试试。一个命令调用多模态 AI 全能力,在终端里就能完成从文字到音乐的全部创作。