多模态 - 苏米客

字节的多模态模型，这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0，结果不废话，先看一个具体的 Case。让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围，全部是一个 Prompt…

220

4天前

AI产品百科

如果你一直觉得本地大模型"要么太笨，要么跑不动"，谷歌这次的 Gemma 4 12B 很可能直接打破这个印象。它不仅能看图说话，还首次在中型模型中加入了原生音频理解——直接"听懂"录音、视频里的声音，无需额外接语音…

140

4天前

这个视频中，风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声、布鞋踩在松软草原的脚步声——这些一系列场景的配音都是 AI 生成的。今天要推荐的开源语音大模型 AudioX-Turbo，能把视频场景直接转成…

158

1周前

AI开源项目

阿里云百炼平台正式宣布：Qwen3.7-Plus 正式上线。作为千问 3.7 系列的重要成员，Qwen3.7-Plus 被官方定义为"能看、能想、能动手的多模态智能体模型"，在编程、办公自动化与长周期任务自主执行方面全面进阶。 Qwen3.…

287

2周前

最近阶跃星辰发布了最新的 Step 3.7 Flash，一款面向 Agent、Coding、Search 与多模态工作流而生的高效率模型。这个定位确实有点反常识——毕竟此前的 Flash 版本默认是旗舰大哥的便宜替代…

338

3周前

AI产品百科

谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中，可在消费级笔记本电脑上运行。 Gemma 4 12B 填补了 Gemma 系列的关键空缺：比边缘端的 E4B 更强，比 26B 混合专…

284

3周前

AI最新动态

阿里巴巴正式发布 Qwen3.7-Plus——将视觉与语言统一为一体化智能体基座的多模态模型。在 Qwen3.7 强大文本能力的基础上，Qwen3.7-Plus 全面升级了视觉-语言能力，同时保持了在编码、工具使用…

342

3周前

AI最新动态

2026 年 5 月 20 日，阿里巴巴在杭州云栖大会正式发布 Qwen3.7 系列大模型。其中 Qwen3.7-Plus-Preview 在多模态领域冲到 Vision Arena 全球第五，这是上一代 Qwen3.6 完全不具备的能力层…

437

3周前

AI最新动态

MiniMax 官方开源了一个 CLI 工具——MiniMax-AI/cli，命令名为 mmx。一行命令即可调用 MiniMax 全家桶 API，覆盖文字、图片、视频、语音、音乐等全部多模态能力。它能做什么？ m…

438

1月前

AI工具集合

面壁智能发布MiniCPM-V 4.6，这是MiniCPM-V系列端侧多模态家族中体量最小的新成员，整体参数规模仅约1.3B，但在性能和推理效率上表现突出。 1B参数意味着什么？模型参数量大致决定了硬件要求。1B量级意味着手机、普通笔记…

469

1月前

AI最新动态

#多模态