龙华线上推广_要看网站是多少_班级优化大师官方网站_外贸网站seo

Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis

该论文发表于CVPR2024：https://arxiv.org/pdf/2402.17364

文章目录

- Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
- - - 任务难点
    - 本文贡献
  - 方法
  - - 方法流程步骤
    - 四面体网格
    - - Marching Tetrahedra (MT)——一种曲面重建算法
    - 几何模型
    - - 音频提取细节
    - 神经渲染
    - 损失函数
  - 实验
  - 结论

任务难点

1.生成细节特征：已有的隐式模型表示方法（NeRF）仍然存在细节问题，例如头部抖动、嘴唇不动、伪影等。

2.建模泛化性：

①传统 2D 方法缺乏 3D 模型导致难以达到此要求，而基于 3DMM 的方法虽利用 3D 人脸知识，但固定拓扑结构限制了其在面部以外区域（如头发）保证自然度的能力。

②不同的运动信号（如音频驱动、3DMM系数驱动等）需要模型能够准确理解并转化为合理的面部运动。

③如何保证视频帧的连续性。

1.计算成本：基于 NeRF 等3D建模的方法在生成高分辨率图像时计算成本较高，如论文中提及的渲染过程中，处理复杂的光照和材质模型对计算量的需求很高。

本文贡献

1.提出 DynTet 模型：结合神经网络与显式动态网格，解决了现有隐式方法在面部变形建模上的不足，能有效处理复杂面部变形，生成高质量、逼真的对话头像

2.改进建模：将拓扑和几何解耦，引入弹性评分机制，在网格拓扑保持不变的情况下，精确控制变形，减少生成图像的局部抖动，实现了更准确的面部表情和姿势控制

3.优化生成路径：引入物理材质和光照模型参数，提高了面部生成质量

方法

方法流程步骤

1.首先，几何映射 F 根据输入的四面体网格（Tetrahedral Grid）和 3DMM 表情系数 α，预测出有符号距离场（SDF）值和偏移向量（Offset Vectors）。

2.然后，通过 Marching Tetrahedra（MT）算法对预测结果进行处理，解码得到具有明确拓扑结构的三角形网格（Triangular Mesh）。

3.接着，外观映射 G 利用预测的材料（Materials），结合光照模型 L，对三角形网格进行纹理映射和光照处理，最终生成逼真的对话头像图像。

下方损失函数描述了模型渲染过程和监督端到端生成效果：

什么是3DMM？

一种统计模型，用于表示和操控三维人脸形状和纹理。它基于人脸的三维扫描数据，通过主成分分析（PCA）提取人脸几何和纹理的低维参数化表示，从而生成人脸变化，包括表情、视角和光照变化等。

下面是3DMM的表达式和大概参数。

四面体网格

Marching Tetrahedra (MT)——一种曲面重建算法

几何模型

ε：引入非负弹性分数，不同面部位置弹性形变量不同，例如额头部位，一般形变较少。

面部模型需要表现出不受变形影响的拓扑不变性。在MT算法中使用公式（1），推出公式（6）。网格点的位置由基于 SDF 值的插值s（影响拓扑和身份）和基于偏移向量的插值Δv（影响几何和表情）两部分组成。在公式（5）中将 SDF 值与说话信号分离，确保了在变形过程中网格拓扑的一致性，同时明确了网格几何形状和四面体网格偏移的关系。

音频提取细节

位置编码：采用频率位置编码，对输入坐标进行 6 个不同频率的正弦和余弦变换，提取高维度特征。时间一致性：采用相邻 27 帧的表情系数来表示任何时间变形。通过卷积操作，将相邻帧的表情系数信息融合在一起，形成一个更具代表性的 256 维特征向量，提供上下文信息。

神经渲染

损失函数

实验

通过定量和定性、消融实验验证了模型的有效性。

结论

本文介绍了动态四面体(Dynamic Tetrahedra, dynnet)，这是一种新颖的具有现实性和表现力的说话头的混合表示。dynnet将四面体网格从静态升级为动态，采用新的体系结构，规范空间和几何优先指导。dynnet可以有效地生成高分辨率的谈话视频，具有现实主义和精确的运动控制，超越了以前的作品。本文的工作可能会启发未来在动态四面体方向上的研究。