VividTalk:一张照片和一段音频生成高质量说话视频

VividTalk是一个由南京大学、阿里巴巴、字节跳动和南开大学联合开发的AI视频生成框架,它能够仅凭一张照片和一段音频生成高质量、逼真的说话视频。

VividTalk生成的视频具有高视觉质量,面部表情逼真,头部姿势多样,嘴唇同步显著提升,真实感和动态性更强。这个框架支持多种图像风格,包括照片、卡通图片等,并且支持多语言,使照片中的人物能够以多种语言“说话”。

VividTalk的工作原理主要分为两个阶段:

  1. 音频到网格的映射(第一阶段):这个阶段中,VividTalk将输入的音频映射到3D网格上。这涉及学习两种类型的运动:非刚性表情运动和刚性头部运动。对于表情运动,技术使用混合形状(blendshape)和顶点作为中间表示,以最大化模型的表示能力。混合形状提供了全局的粗略运动,而顶点偏移则描述了更细致的嘴唇运动。对于自然的头部运动,VividTalk提出了一个新颖的可学习的头部姿势代码本,采用了两阶段训练机制。
  2. 网格到视频的转换(第二阶段):这个阶段中,VividTalk使用双分支运动-VAE(变分自编码器)和生成器将学习到的网格转换为密集的运动,并基于这些运动逐帧合成高质量的视频。这一过程涉及将3D网格的运动转换为2D密集运动,然后输入到生成器中,以合成最终的视频帧。

通过这种方法,VividTalk能够生成与输入音频高度同步的逼真说话头像视频,提高了视频的真实感和动态性。

相关链接:

声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索