10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸

13小时前 AI最新动态 253 0

即梦全新影视级数字人「OmniHuman 1.5」上线一段时间了!大家的关注点可能都在即梦生图4.0上,其实AI视频生成也是“王炸”!

这款基于单张图像和音频的多模态数字人方案,凭借双人场景生成、超长视频连贯性、情感感知等突破性功能,在影视制作、虚拟主播、教育营销等领域掀起新一轮技术革命。

相较于之前的 Omnihuman 1.0,这次不只是上传音频和图片他帮你生成带有唇形同步的动态视频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。

模型能力

技术升级

OmniHuman-1.5并非简单迭代,而是对真实感与泛化能力的全面重构。

动作自然度飙升: 通过优化多模态运动条件混合训练策略,系统能精准解析音频中的节奏、语调,生成与真人无异的肢体动作。无论是演讲时的手势,还是舞蹈中的旋转,都能做到“音画同步”。

唇形同步精度达毫秒级: 针对动漫角色、虚拟偶像等非真人形象,系统通过风格迁移算法保持动作一致性,同时优化唇形生成逻辑,彻底告别“口型对不上”的尴尬。

情感感知让视频“有灵魂”: 系统可识别音频中的情绪(如愤怒、喜悦、悲伤),并自动调整人物表情。例如,输入一段激昂的演讲音频,视频中的人物会眉头紧锁、眼神锐利,增强感染力。

技术亮点

支持双人音频驱动: 首次实现多人场景交互,可生成对话、辩论甚至舞蹈合作视频,为虚拟直播、影视特效提供新可能。

超长视频生成: 通过帧间连接策略,支持生成超过1分钟的连贯视频,身份一致性误差率低于3%,满足演讲、MV等复杂需求。

应用场景

Omnihuman -1.5的突破性功能,正在重塑多个领域的创作逻辑:

影视制作: 快速生成虚拟演员视频,降低特效成本。例如,历史剧中的已故演员可“复活”参演,动漫角色可实时对口型配音。

虚拟主播: 主播无需露脸,上传一张照片即可生成动态形象,配合实时音频驱动,实现24小时不间断直播。

教育培训: 生成生动的教学视频,教师形象可配合知识点讲解做出手势,提升学生注意力。

广告营销: 品牌可定制虚拟代言人,根据不同产品调整形象风格(如科技感、亲和力),提升转化率。

实测体验

打开即梦官网首页,切换到「数字人」

上传人物首帧图片,可以是真人或动漫人物

音乐选择支持选择即梦内置的音色库,当然也可以创建自己的音色库,只需要在「我的音色」这里去克隆你想用的音色,只需要 5 秒音频就行。

如果你自己有音频,这时候你需要点击下面的「上传音频」按钮,音频就会回填,这时候角色说这部分就变成你上传的音频了不能打字。

还有一种情况是,你上传的画面里有多个角色,这时候即梦就会自动检测到,你就可以选择是图片中的哪个角色在说话,可以选单个,也可以选全部。

关于动作描述,这里可以用他们推荐的提示词模板,尽量遵循清晰、不矛盾、少否定,多写具体的内容,少用文学化和形容词表达。

这里苏米找了一段播客素材,实现双人对话场景,一起来看看效果:

提示词:角色对着镜头说话,说的同时也会与右边的角色产生眼神互动,说话情绪活力,轻松愉悦的氛围,在聊八卦的感觉,手部也会相应的与说话同步摆动

因为有两个角色,所以需要分两次分别导入音频生成,最后拼出来的效果给大家看看~

官方介绍和演示: https://omnihuman-lab.github.io/v1_5/

技术要求

数字人使用基础参数要求:

输入图片格式 JPG, PNG 等
图片大小限制 < 5MB, < 4096×4096
音频时长 推荐 ≤ 15 秒,最大 30 秒
支持分辨率 720P, 1080P
生成模式 快速模式, 大师模式
支持语言 不限,中、英、日等常见语种表现更佳

提示词指南:

把编写提示词当成讲故事,使用连贯自然的自然语言,尽可能减少孤立词汇的堆砌。

只描述动态的事件即可,图片中已经包含的静态特征(角色穿什么衣服、戴什么首饰等等)无需描述。

提示词需要遵循清晰、不矛盾、少否定的原则。使用具体而非抽象的描述,分步骤引导。

最佳实践模板:

镜头运动 + 说话角色情绪 + 说话状态(说话/哭泣/唱歌/...) + 具体动作 + (可选)背景事件/其他角色的动作

总结

整体的感觉,对于长内容的对话可能在细节上还是会有一些不太贴合,包括动作的细节,但整体感受还是非常自然了,从语气和表情、动作的关联,都能够达到非常好的一致性!

从OmniHuman-1到1.5,字节跳动用技术迭代证明:AI视频生成的终极目标,不是“替代人类”,而是“赋能每个人”。

当一张照片、一段音频就能承载创意,当非专业用户也能轻松制作影视级内容,创作的门槛正被彻底打破。

AI数字人,正在重新定义“创作”的边界!

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸
#AI数字人 #即梦 #OmniHuman 
收藏 1
腾讯开源混元图像模型 3.0(HunyuanImage 3.0),免费开放使用!
智谱GLM-4.6 发布,国产最强模型上新,而且开源!
推荐阅读
  • VS Code 开源 Copilot Chat,压力给到 Cursor!
  • Anthropic发布Claude Sonnet 4.5,代码能力超越 GPT-5,这次更新不止是模型!
  • 谷歌放大招!免费开源的 Gemini CLI,冲着Claude Code来的!
  • Uizard:Autodesigner 2.0 AI生成式辅助UI设计工具,产品经理+UI设计
  • Google AI Mode上线免费体验:从聊天到代理,让生活更高效!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
18804 2月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
16668 4月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14165 7月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12259 5月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
12043 9月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
10427 5月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
9288 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
8831 5月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
8567 9月前
字节全新AI编程 IDE:Trae!性能对标Cursor,标配Claude 3.5和GPT-4o,免费无限量
5935 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 智谱GLM-4.6 发布,国产最强模型上新,而且开源!
2 即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸
3 腾讯开源混元图像模型 3.0(HunyuanImage 3.0),免费开放使用!
4 DeepSeek-V3.2-Exp模型正式发布,性能不变,API价格大幅下调50%
5 Anthropic发布Claude Sonnet 4.5,代码能力超越 GPT-5,这次更新不止是模型!
6 Kimi全新Agent模型OK Computer发布并开启订阅
7 Google Vids:AI数字人制作体验,vids .new免费制作数字人
8 非程序员也能玩黑客松,中国首届非程序员黑客松大赛
9 DeepSeek V3.1-Terminus 发布:语言一致性与智能代理的双重进化
10 阿里 Qwen3 系列新模型:全模态AI,规模最大、能力最强的模型
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联