#多模态
字节 Seed-Audio 1.0 实测:从语音合成到语音创作的突破
字节的多模态模型,这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0,结果不废话,先看一个具体的 Case。
让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围,全部是一个 Prompt…
谷歌 Gemma 4 12B 实测:原生音频理解+256K 上下文,普通笔记本可运行
如果你一直觉得本地大模型"要么太笨,要么跑不动",谷歌这次的 Gemma 4 12B 很可能直接打破这个印象。
它不仅能看图说话,还首次在中型模型中加入了原生音频理解——直接"听懂"录音、视频里的声音,无需额外接语音…
AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
这个视频中,风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声、布鞋踩在松软草原的脚步声——这些一系列场景的配音都是 AI 生成的。
今天要推荐的开源语音大模型 AudioX-Turbo,能把视频场景直接转成…
Qwen3.7-Plus正式上线:阿里最强多模态智能体模型,限时8折
阿里云百炼平台正式宣布:Qwen3.7-Plus 正式上线。作为千问 3.7 系列的重要成员,Qwen3.7-Plus 被官方定义为"能看、能想、能动手的多模态智能体模型",在编程、办公自动化与长周期任务自主执行方面全面进阶。
Qwen3.…
Step 3.7 Flash 实测:Agent 时代的高效多模态模型,1 分钟完成 Web 项目开发
最近阶跃星辰发布了最新的 Step 3.7 Flash,一款面向 Agent、Coding、Search 与多模态工作流而生的高效率模型。这个定位确实有点反常识——毕竟此前的 Flash 版本默认是旗舰大哥的便宜替代…
谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型
谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中,可在消费级笔记本电脑上运行。
Gemma 4 12B 填补了 Gemma 系列的关键空缺:比边缘端的 E4B 更强,比 26B 混合专…
Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
阿里巴巴正式发布 Qwen3.7-Plus——将视觉与语言统一为一体化智能体基座的多模态模型。
在 Qwen3.7 强大文本能力的基础上,Qwen3.7-Plus 全面升级了视觉-语言能力,同时保持了在编码、工具使用…
Qwen3.7-Plus正式发布:多模态冲进Vision Arena全球前五
2026 年 5 月 20 日,阿里巴巴在杭州云栖大会正式发布 Qwen3.7 系列大模型。其中 Qwen3.7-Plus-Preview 在多模态领域冲到 Vision Arena 全球第五,这是上一代 Qwen3.6 完全不具备的能力层…
MiniMax CLI(mmx):一个命令调用多模态 AI 全能力的终端工具
MiniMax 官方开源了一个 CLI 工具——MiniMax-AI/cli,命令名为 mmx。一行命令即可调用 MiniMax 全家桶 API,覆盖文字、图片、视频、语音、音乐等全部多模态能力。
它能做什么?
m…
MiniCPM-V 4.6:1B参数端侧多模态模型发布
面壁智能发布MiniCPM-V 4.6,这是MiniCPM-V系列端侧多模态家族中体量最小的新成员,整体参数规模仅约1.3B,但在性能和推理效率上表现突出。
1B参数意味着什么?
模型参数量大致决定了硬件要求。1B量级意味着手机、普通笔记…