当前位置：首页 » AI产品百科

LatentSync：开源视频对口型AI模型，字节跳动开源的数字人项目

10月前 AI产品百科 1744 0

LatentSync是一款由字节跳动与北京交通大学联合推出的端到端唇形同步框架。它基于音频驱动的潜在扩散模型（audio-driven latent diffusion models），旨在实现无缝的时间一致性，并生成高质量的、逼真的说话视频。该框架适用于配音、虚拟头像、游戏开发等多种应用场景。

LatentSync功能

端到端唇形同步：Latent Sync 无需任何中间运动表示，直接在潜在空间建模复杂的音视频关系。它能够精准地根据输入的音频生成与之匹配的唇部运动，实现唇形与语音的精准同步。
高分辨率视频生成：Latent Sync 克服了传统扩散模型在像素空间进行扩散时对硬件要求高的限制，能够生成高分辨率的视频。
动态逼真效果：生成的视频具有动态逼真的效果，能够捕捉到与情感语调相关的细微表情，使人物的说话更加自然生动。
时间一致性增强：Latent Sync 引入了 Temporal REPresentation Alignment（TREPA）方法，通过大规模自监督视频模型提取时间表示，增强生成帧与真实帧的时间一致性，减少视频闪烁现象，使视频播放更加流畅。
多语言支持：Latent Sync 支持多语言处理，适用于国际内容本地化。

官网链接：https://www.latentsync.org

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：LatentSync：开源视频对口型AI模型，字节跳动开源的数字人项目

#LatentSync #字节跳动 #数字人

收藏 1

评论 (0)

请登录后发表评论