10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸

9月前 AI最新动态 5970 0

即梦全新影视级数字人「OmniHuman 1.5」上线一段时间了!大家的关注点可能都在即梦生图4.0上,其实AI视频生成也是“王炸”!

这款基于单张图像和音频的多模态数字人方案,凭借双人场景生成、超长视频连贯性、情感感知等突破性功能,在影视制作、虚拟主播、教育营销等领域掀起新一轮技术革命。

相较于之前的 Omnihuman 1.0,这次不只是上传音频和图片他帮你生成带有唇形同步的动态视频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。

模型能力

技术升级

OmniHuman-1.5并非简单迭代,而是对真实感与泛化能力的全面重构。

动作自然度飙升: 通过优化多模态运动条件混合训练策略,系统能精准解析音频中的节奏、语调,生成与真人无异的肢体动作。无论是演讲时的手势,还是舞蹈中的旋转,都能做到“音画同步”。

唇形同步精度达毫秒级: 针对动漫角色、虚拟偶像等非真人形象,系统通过风格迁移算法保持动作一致性,同时优化唇形生成逻辑,彻底告别“口型对不上”的尴尬。

情感感知让视频“有灵魂”: 系统可识别音频中的情绪(如愤怒、喜悦、悲伤),并自动调整人物表情。例如,输入一段激昂的演讲音频,视频中的人物会眉头紧锁、眼神锐利,增强感染力。

技术亮点

支持双人音频驱动: 首次实现多人场景交互,可生成对话、辩论甚至舞蹈合作视频,为虚拟直播、影视特效提供新可能。

超长视频生成: 通过帧间连接策略,支持生成超过1分钟的连贯视频,身份一致性误差率低于3%,满足演讲、MV等复杂需求。

应用场景

Omnihuman -1.5的突破性功能,正在重塑多个领域的创作逻辑:

影视制作: 快速生成虚拟演员视频,降低特效成本。例如,历史剧中的已故演员可“复活”参演,动漫角色可实时对口型配音。

虚拟主播: 主播无需露脸,上传一张照片即可生成动态形象,配合实时音频驱动,实现24小时不间断直播。

教育培训: 生成生动的教学视频,教师形象可配合知识点讲解做出手势,提升学生注意力。

广告营销: 品牌可定制虚拟代言人,根据不同产品调整形象风格(如科技感、亲和力),提升转化率。

实测体验

打开即梦官网首页,切换到「数字人」

上传人物首帧图片,可以是真人或动漫人物

音乐选择支持选择即梦内置的音色库,当然也可以创建自己的音色库,只需要在「我的音色」这里去克隆你想用的音色,只需要 5 秒音频就行。

如果你自己有音频,这时候你需要点击下面的「上传音频」按钮,音频就会回填,这时候角色说这部分就变成你上传的音频了不能打字。

还有一种情况是,你上传的画面里有多个角色,这时候即梦就会自动检测到,你就可以选择是图片中的哪个角色在说话,可以选单个,也可以选全部。

关于动作描述,这里可以用他们推荐的提示词模板,尽量遵循清晰、不矛盾、少否定,多写具体的内容,少用文学化和形容词表达。

这里苏米找了一段播客素材,实现双人对话场景,一起来看看效果:

提示词:角色对着镜头说话,说的同时也会与右边的角色产生眼神互动,说话情绪活力,轻松愉悦的氛围,在聊八卦的感觉,手部也会相应的与说话同步摆动

因为有两个角色,所以需要分两次分别导入音频生成,最后拼出来的效果给大家看看~

官方介绍和演示: https://omnihuman-lab.github.io/v1_5/

技术要求

数字人使用基础参数要求:

输入图片格式 JPG, PNG 等
图片大小限制 < 5MB, < 4096×4096
音频时长 推荐 ≤ 15 秒,最大 30 秒
支持分辨率 720P, 1080P
生成模式 快速模式, 大师模式
支持语言 不限,中、英、日等常见语种表现更佳

提示词指南:

把编写提示词当成讲故事,使用连贯自然的自然语言,尽可能减少孤立词汇的堆砌。

只描述动态的事件即可,图片中已经包含的静态特征(角色穿什么衣服、戴什么首饰等等)无需描述。

提示词需要遵循清晰、不矛盾、少否定的原则。使用具体而非抽象的描述,分步骤引导。

最佳实践模板:

镜头运动 + 说话角色情绪 + 说话状态(说话/哭泣/唱歌/...) + 具体动作 + (可选)背景事件/其他角色的动作

总结

整体的感觉,对于长内容的对话可能在细节上还是会有一些不太贴合,包括动作的细节,但整体感受还是非常自然了,从语气和表情、动作的关联,都能够达到非常好的一致性!

从OmniHuman-1到1.5,字节跳动用技术迭代证明:AI视频生成的终极目标,不是“替代人类”,而是“赋能每个人”。

当一张照片、一段音频就能承载创意,当非专业用户也能轻松制作影视级内容,创作的门槛正被彻底打破。

AI数字人,正在重新定义“创作”的边界!

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸
#AI数字人 #即梦 #OmniHuman 
收藏 1
腾讯开源混元图像模型 3.0(HunyuanImage 3.0),免费开放使用!
智谱GLM-4.6 发布,国产最强模型上新,而且开源!
推荐阅读
  • 智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
  • 字节 Seedance 2.5 内测完成:支持 30 秒原生视频直出,50 个参考素材
  • 谷歌发布 Gemini 3.5 Flash:速度快4倍,定价仅为竞品一半
  • Coze重磅更新!扣子编程正式支持 Skill:从工具调用到专业工作流,你的智能体技能商店
  • 全网最全 OpenClaw 彻底卸载教程,保姆级全流程,删除Openclaw不用求人
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
31561 11月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
28660 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
20678 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
20349 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
16481 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
16391 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
16018 11月前
国产大模型横向对比:Kimi K2.6、GLM-5.1、Qwen3、MiniMax M2 四大模型选型指南
15270 2月前
腾讯ima知识库skills上线:教你如何把腾讯 IMA 知识库接入 OpenClaw 一步打通
15237 3月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
15194 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 豆包导航上线:月活3亿+,AI超级入口再下一城
2 DeepSeek V4 正式版即将发布:引入峰谷定价机制,闲时算力更低价
3 Claude Code 疑似暗藏地区检测机制:中国用户为何频繁被封?
4 OpenAI 承认 Codex 额度消耗异常:修复后额外赠送重置次数
5 Hermes Agent上线MoA功能:多模型混合协作,基准测试超越GPT-5.5和Opus-4.8
6 GPT-5.6 宣而不发,Fable 5 归来再禁:出口管制下的模型封锁
7 千问输入法正式上线:阿里双输入法赛马,语音输入成新战场
8 Hermes 上线 MoA 混合 Agent 模式:多模型协作提升任务质量
9 Doubao-Seed-2.1 vs DeepSeek-V4 vs GPT-5.5 实测对比:谁最适合 Agent 开发任务?
10 GPT-5.6 预览版发布:三大模型 Sol/Terra/Luna,全球用户暂无法使用
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联