AniPortrait是什么?
AniPortrait是一个根据音频和图像输入生成会说话、唱歌的动态视频的项目。它能够根据音频和静态人脸图片生成逼真的人脸动画,口型保持一致。支持多种语言和面部重绘、头部姿势控制。功能包括音频驱动的动画合成、面部再现、头部姿势控制、支持自驱动和音频驱动的视频生成、高质量动画生成以及灵活的模型和权重配置。
AniPortrait的用途
AniPortrait图片生成视频的应用场景主要包括以下几个方面:
虚拟现实(VR):AniPortrait可以为VR角色提供逼真的面部动画,增强用户的沉浸感。这意味着在虚拟现实环境中,用户可以通过更加自然和真实的面部表情来与虚拟角色互动,从而提升体验的真实性和互动性。
视频游戏:在视频游戏中,AniPortrait的应用可以使得游戏角色的面部表情更加丰富和真实,提高游戏的吸引力和玩家的沉浸感。通过生成逼真的动态视频,可以使游戏角色的表情和反应更加自然,增加游戏的趣味性和互动性。
音频驱动的动画合成:AniPortrait支持音频驱动的动画合成,这意味着它可以根据音频内容自动生成相应的面部动画,适用于需要根据特定音频内容生成相应表情或动作的场景。这种应用可以广泛应用于视频制作、电影特效等领域,使得角色的表情和动作更加符合音频内容,提高作品的表现力。
高质量动画生成:AniPortrait能够生成高质量的动画,这使得它非常适合于需要高清晰度和细节表现的场合,如电影制作、广告视频等。通过高质量的动画生成,可以确保角色的表情和动作既逼真又细腻,满足专业级别的制作需求。
产品特色
音频驱动的肖像动画合成:AniPortrait是一款能够根据音频和静态人脸图片生成逼真动态视频的工具,它通过提取音频中的3D面部表情来实现这一功能。
用户友好性:使用AniPortrait非常简单,用户只需提供音频和人脸图片,即可生成符合特定要求的人脸动画。此外,用户还可以根据需要调整模型和权重配置,以实现个性化的动画效果。
三维数据转换:AniPortrait会从音频中提取出三维的中间数据,并将这些数据转换成一连串的二维面部轮廓标记,为后续的人脸动画生成打下基础。
高品质动画生成:该工具基于音频和一张参考人脸照片来生成高品质的动画,包括两个主要步骤:首先是从音频中提取三维中间数据,然后进行后续处理。
工作原理
1、音频处理与3D面部表示:
- 音频特征提取:首先,使用预训练的wav2vec模型从输入的音频中提取关键的语音特征,如发音、语调和节奏。
- 3D面部网格与姿势生成:接着,根据提取的音频特征,通过一个简单的网络架构(通常包含全连接层)生成对应的3D面部网格和头部姿势。这一步骤能够捕捉到微妙的面部表情和唇部动作,以及与音频节奏同步的头部运动。
2、2D标记点到动画的转换:
- 2D面部标记点投影:将3D面部网格和姿势转换为2D面部标记点序列。这些标记点为后续的动画生成提供了关键的视觉信息。
- 扩散模型与动画生成:然后,利用扩散模型(如Stable Diffusion 1.5)结合运动模块,将2D标记点序列转换成一系列动画帧。这一过程中,模型会参考扩散模型的网络架构,通过迭代去噪过程生成高质量的图像。
- PoseGuider模块:为了提高唇部动作的准确性,AniPortrait引入了PoseGuider模块,该模块采用ControlNet的多尺度策略,将不同尺度的标记点特征整合到网络的不同层中。此外,还包括参考图像的标记点作为额外输入,通过交叉注意力机制增强生成动画的精确度。
通过这两个阶段的工作,AniPortrait能够将音频和静态图像转换为逼真的肖像动画,同时保持高度的自然性和时间上的连贯性。这个过程涉及到复杂的深度学习技术和图像处理算法,使得最终输出的动画既符合音频的节奏,又能够精确地模拟人类的面部表情和唇动。
产品入口
项目入口:https://github.com/Zejun-Yang/AniPortrait
论文地址:https://arxiv.org/pdf/2403.17694.pdf