您的位置:首页 > 健康 > 养生 > 龙华线上推广_要看网站是多少_班级优化大师官方网站_外贸网站seo

龙华线上推广_要看网站是多少_班级优化大师官方网站_外贸网站seo

2025/1/11 17:26:10 来源:https://blog.csdn.net/weixin_51172489/article/details/144219773  浏览:    关键词:龙华线上推广_要看网站是多少_班级优化大师官方网站_外贸网站seo
龙华线上推广_要看网站是多少_班级优化大师官方网站_外贸网站seo

Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis

该论文发表于CVPR2024:https://arxiv.org/pdf/2402.17364

文章目录

    • Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
        • 任务难点
        • 本文贡献
      • 方法
        • 方法流程步骤
        • 四面体网格
          • Marching Tetrahedra (MT)——一种曲面重建算法
        • 几何模型
          • 音频提取细节
        • 神经渲染
        • 损失函数
      • 实验
      • 结论

任务难点

1.生成细节特征:已有的隐式模型表示方法(NeRF)仍然存在细节问题,例如头部抖动、嘴唇不动、伪影等。

2.建模泛化性

①传统 2D 方法缺乏 3D 模型导致难以达到此要求,而基于 3DMM 的方法虽利用 3D 人脸知识,但固定拓扑结构限制了其在面部以外区域(如头发)保证自然度的能力。

②不同的运动信号(如音频驱动、3DMM系数驱动等)需要模型能够准确理解并转化为合理的面部运动。

③如何保证视频帧的连续性。

1.计算成本:基于 NeRF 等3D建模的方法在生成高分辨率图像时计算成本较高,如论文中提及的渲染过程中,处理复杂的光照和材质模型对计算量的需求很高。

本文贡献

1.提出 DynTet 模型:结合神经网络与显式动态网格,解决了现有隐式方法在面部变形建模上的不足,能有效处理复杂面部变形,生成高质量、逼真的对话头像

2.改进建模:将拓扑和几何解耦,引入弹性评分机制,在网格拓扑保持不变的情况下,精确控制变形,减少生成图像的局部抖动,实现了更准确的面部表情和姿势控制

3.优化生成路径:引入物理材质和光照模型参数,提高了面部生成质量

方法

image-20241203170415694

方法流程步骤

1.首先,几何映射 F 根据输入的四面体网格(Tetrahedral Grid)和 3DMM 表情系数 α,预测出有符号距离场(SDF)值和偏移向量(Offset Vectors)。

2.然后,通过 Marching Tetrahedra(MT)算法对预测结果进行处理,解码得到具有明确拓扑结构的三角形网格(Triangular Mesh)。

3.接着,外观映射 G 利用预测的材料(Materials),结合光照模型 L,对三角形网格进行纹理映射和光照处理,最终生成逼真的对话头像图像。

下方损失函数描述了模型渲染过程和监督端到端生成效果

image-20241203170643275

什么是3DMM?

一种统计模型,用于表示和操控三维人脸形状和纹理。它基于人脸的三维扫描数据,通过主成分分析(PCA)提取人脸几何和纹理的低维参数化表示,从而生成人脸变化,包括表情、视角和光照变化等。

下面是3DMM的表达式和大概参数。

image-20241203170753369

image-20241203170758840

四面体网格

image-20241203170904580

Marching Tetrahedra (MT)——一种曲面重建算法

image-20241203170929430

image-20241203170937169

几何模型

image-20241203171155419

ε:引入非负弹性分数,不同面部位置弹性形变量不同,例如额头部位,一般形变较少。

面部模型需要表现出不受变形影响的拓扑不变性。在MT算法中使用公式(1),推出公式(6)。网格点的位置由基于 SDF 值的插值s(影响拓扑和身份)和基于偏移向量的插值Δv(影响几何和表情)两部分组成。在公式(5)中将 SDF 值与说话信号分离,确保了在变形过程中网格拓扑的一致性,同时明确了网格几何形状和四面体网格偏移的关系。

image-20241203171231600

image-20241203171238941

音频提取细节

位置编码:采用频率位置编码,对输入坐标进行 6 个不同频率的正弦和余弦变换,提取高维度特征。时间一致性:采用相邻 27 帧的表情系数来表示任何时间变形。通过卷积操作,将相邻帧的表情系数信息融合在一起,形成一个更具代表性的 256 维特征向量,提供上下文信息。

神经渲染

image-20241203171431434

损失函数

image-20241203171612159

实验

通过定量和定性、消融实验验证了模型的有效性。

image-20241203171711810

image-20241203171804625

image-20241203171902566

结论

本文介绍了动态四面体(Dynamic Tetrahedra, dynnet),这是一种新颖的具有现实性和表现力的说话头的混合表示。dynnet将四面体网格从静态升级为动态,采用新的体系结构,规范空间和几何优先指导。dynnet可以有效地生成高分辨率的谈话视频,具有现实主义和精确的运动控制,超越了以前的作品。本文的工作可能会启发未来在动态四面体方向上的研究。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com