Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
该论文发表于CVPR2024:https://arxiv.org/pdf/2402.17364
文章目录
- Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
- 任务难点
- 本文贡献
- 方法
- 方法流程步骤
- 四面体网格
- Marching Tetrahedra (MT)——一种曲面重建算法
- 几何模型
- 音频提取细节
- 神经渲染
- 损失函数
- 实验
- 结论
任务难点
1.生成细节特征:已有的隐式模型表示方法(NeRF)仍然存在细节问题,例如头部抖动、嘴唇不动、伪影等。
2.建模泛化性:
①传统 2D 方法缺乏 3D 模型导致难以达到此要求,而基于 3DMM 的方法虽利用 3D 人脸知识,但固定拓扑结构限制了其在面部以外区域(如头发)保证自然度的能力。
②不同的运动信号(如音频驱动、3DMM系数驱动等)需要模型能够准确理解并转化为合理的面部运动。
③如何保证视频帧的连续性。
1.计算成本:基于 NeRF 等3D建模的方法在生成高分辨率图像时计算成本较高,如论文中提及的渲染过程中,处理复杂的光照和材质模型对计算量的需求很高。
本文贡献
1.提出 DynTet 模型:结合神经网络与显式动态网格,解决了现有隐式方法在面部变形建模上的不足,能有效处理复杂面部变形,生成高质量、逼真的对话头像
2.改进建模:将拓扑和几何解耦,引入弹性评分机制,在网格拓扑保持不变的情况下,精确控制变形,减少生成图像的局部抖动,实现了更准确的面部表情和姿势控制
3.优化生成路径:引入物理材质和光照模型参数,提高了面部生成质量
方法
方法流程步骤
1.首先,几何映射 F 根据输入的四面体网格(Tetrahedral Grid)和 3DMM 表情系数 α,预测出有符号距离场(SDF)值和偏移向量(Offset Vectors)。
2.然后,通过 Marching Tetrahedra(MT)算法对预测结果进行处理,解码得到具有明确拓扑结构的三角形网格(Triangular Mesh)。
3.接着,外观映射 G 利用预测的材料(Materials),结合光照模型 L,对三角形网格进行纹理映射和光照处理,最终生成逼真的对话头像图像。
下方损失函数描述了模型渲染过程和监督端到端生成效果:
什么是3DMM?
一种统计模型,用于表示和操控三维人脸形状和纹理。它基于人脸的三维扫描数据,通过主成分分析(PCA)提取人脸几何和纹理的低维参数化表示,从而生成人脸变化,包括表情、视角和光照变化等。
下面是3DMM的表达式和大概参数。
四面体网格
Marching Tetrahedra (MT)——一种曲面重建算法
几何模型
ε:引入非负弹性分数,不同面部位置弹性形变量不同,例如额头部位,一般形变较少。
面部模型需要表现出不受变形影响的拓扑不变性。在MT算法中使用公式(1),推出公式(6)。网格点的位置由基于 SDF 值的插值s(影响拓扑和身份)和基于偏移向量的插值Δv(影响几何和表情)两部分组成。在公式(5)中将 SDF 值与说话信号分离,确保了在变形过程中网格拓扑的一致性,同时明确了网格几何形状和四面体网格偏移的关系。
音频提取细节
位置编码:采用频率位置编码,对输入坐标进行 6 个不同频率的正弦和余弦变换,提取高维度特征。时间一致性:采用相邻 27 帧的表情系数来表示任何时间变形。通过卷积操作,将相邻帧的表情系数信息融合在一起,形成一个更具代表性的 256 维特征向量,提供上下文信息。
神经渲染
损失函数
实验
通过定量和定性、消融实验验证了模型的有效性。
结论
本文介绍了动态四面体(Dynamic Tetrahedra, dynnet),这是一种新颖的具有现实性和表现力的说话头的混合表示。dynnet将四面体网格从静态升级为动态,采用新的体系结构,规范空间和几何优先指导。dynnet可以有效地生成高分辨率的谈话视频,具有现实主义和精确的运动控制,超越了以前的作品。本文的工作可能会启发未来在动态四面体方向上的研究。