#多模态
MiniCPM-V 4.6:1B参数端侧多模态模型发布
面壁智能发布MiniCPM-V 4.6,这是MiniCPM-V系列端侧多模态家族中体量最小的新成员,整体参数规模仅约1.3B,但在性能和推理效率上表现突出。
1B参数意味着什么?
模型参数量大致决定了硬件要求。1B量级意味着手机、普通笔记…
GPT-Image-2 灰度测试作品展示:多风格图像生成能力详解
目前 GPT-Image-2 正在灰度中,可惜作者的 GPT Pro 订阅都没命中灰度... 只好先借用一下 X 上的优秀作品了(作品作者见每个 prompt 前面的@xxx,部分作品没有找到 prompt)。
作品展示
1. 九宫格设计师…
Seedance 2.0 Prompt 圣经:5 层提示词结构 + 镜头关键词库 + 约束系统完整指南
苏米注:Seedance 2.0 API 全面开放后,AI 视频生成再次成为热点。这篇文章整理了 Seedance 2.0 提示词的完整指南,从 5 层结构、镜头关键词库到约束系统,都是实测有效的技巧。
一、Seedance 2.0 到底…
MMX-CLI 详解:MiniMax 多模态命令行工具,7 种感官赋能 AI 内容创作
大多数 AI 能读写思考,但让它们唱歌画画就差点意思。MiniMax 今天发布的 MMX-CLI 要解决的正是这个问题。
苏米注:这个工具的定位很有意思——它不是把 AI 变成瑞士军刀,而是让 AI 自己学会使用工具…
Meta 发布全新大模型 Muse Spark:多模态是强项,编程是短板
今天凌晨,Meta 发布了全新的大模型 Muse Spark,已上线到 Meta 旗下的各类产品。
Meta Superintelligence Labs(MSL)负责人 Alexandr Wang 在推特上宣布了这个消息。他说,九个月前团…
智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
智谱最近发布了新款多模态模型 GLM-5V-Turbo,主打视觉编程能力。
这款模型可以直接基于图片、视频、网页生成可运行代码,在多项评测基准上以较小尺寸取得领先表现。
苏米注:视觉编程这个方向很有意思。之前用过的多模态模型大多是"塞了个识…
SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式
在处理大量视频素材时,找到一个特定片段往往需要来回拖动进度条,效率极低。
最近 GitHub 上出现了一个开源项目 SentrySearch(目前已获 2.7K Star),它能让视频搜索变得像 Google 搜索文本一样简单。
视频搜索…
智谱 GLM-5V-Turbo 发布:原生多模态 Coding 基座模型
智谱 GLM-5V-Turbo 发布:原生多模态 Coding 基座模型
2026 年 4 月 2 日,智谱发布 GLM-5V-Turbo,定位为「面向视觉编程的多模态 Coding 基座模型」。这款模型在 GLM-5-Turbo 的编程和…
天谱乐:全球首个文本/图片/视频一键成曲的多模态AI音乐创作大模型
天谱乐是唱鸭旗下的AI音乐品牌,为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐,让创作变得简单便捷。利用先进的多模态理解与生成技术,天谱乐能够生成与图片和视频情感高度契合的音乐,并提供发行级的歌曲创作服务。无论是专…
SkyReels:一个画布+多Agent的端到端内容生成思路,适合营销与电商团队
把一张猫的头像,从风格化转绘到生成短视频、加配音并导出4K,全程没有跳出同一个画布。
这是我对全新 SkyReels 的第一印象:以“无限画布”为核心,串起图片、视频、数字人、音频等多模态生成,并用一组预设 Agen…