当前位置：首页 » AI产品百科

Sonic：腾讯开源图片唱歌说话AI数字人，图生视频

1年前 AI产品百科 1549 0

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架，基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器，分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动，增强局部音频感知能力。Sonic用时间感知位置偏移融合机制，将局部音频感知扩展到全局，解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法，显著提升肖像动画的自然性和连贯性，支持用户对动画的精细调整。

Sonic功能

逼真的唇部同步：精确地将音频与唇部动作对齐，确保说话内容与嘴型高度一致。
丰富的表情和头部动作：生成多样化且自然的面部表情和头部运动，让动画更具生动性和表现力。
长时间稳定生成：在处理长视频时，能保持稳定的输出，避免抖动和突变，确保整体连贯性。
用户可调节性：支持用户基于参数调整控制头部运动、表情强度和唇部同步效果，提供高度的可定制性。

官网链接：https://github.com/jixiaozhong/Sonic

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Sonic：腾讯开源图片唱歌说话AI数字人，图生视频

#Sonic #图生视频 #AI数字人

收藏 1

评论 (0)

请登录后发表评论