3D Morphable Face Models—Past, Present, and Future
Summary Sheet
Introduction
Definition
A 3D Morphable Face Model is a generative model for face shape and appearance that is based on two key ideas.
All faces are in dense point-to-point correspondence.
Separate facial shape and color and to disentangle these from external factors such as illumination and camera parameters.
3DMMs 最初是一个人脸分布的统计模型,后续引入了其他生成式学习模型。3DMMs发展的前提假设是类别的先验知识对视觉任务很重要,被设计用于从一组样本中自动学习以捕获这样的先验知识。
Research Development
I: Eigenfaces
- Eigenfaces [1987, 1991]: explicit face representation and operated on gray levels, images of faces is a vector space and the eigenvectors represent variation in space. ——influential
Drawbacks: fixed pose and illumination, no shape differences.
- Eigenfaces in 3D [1996]: model shading variations in 3D faces.
II: Correspondence-based
通过添加 2D 形状变换的特征分解得到明确的 shape model 和 aligned Eigenface model. 传统的 Eigenface 方法只对齐一个单独的点,而新的方法建立了大量点的对应。
Landmark-based Face Warping [1991, 1995]: a statistical shape model using landmarks. ——innovative
Active Appearance Models [1998]: a combination of shape and appearance. ——successful and influential
Dense Pixel-wise Image Correspondences [1999, 1998]: computed dense pixel-wise image correspondences with optic-flow algorithms for modeling the facial shape variations.
以上的 2D models 能够有效捕获对应于一个固定姿势和照明环境的形状变换,并可以拓展到姿势的变换、其他类别。且证实图像中形状和纹理信息的分离可以建模脸部的变化。引入姿势和照明环境变换代价高昂且条件受限,后续受益于 3D 图形学的发展,造就了 3DMMs 的诞生。
III: 3DMMs
- 3DMMs [1999]: new face representation and using analysis-by-synthesis to map between the 3D and 2D domain. ——influential
Drawbacks: high computational price, costly optimization, more complex.
通过利用 3D 模型操控现有的图像以及在 3D 表面应用 2D 算法来充分挖掘 2D 和 3D 世界是一个关键点。
Face Capture
3DMM中最关键的部分是一组3D形状表示,以及相应的外观数据。
Shape Acquisition
形状表示最常用的是三角形网格,利用这种方法进行密集对应需要所有样本都表现出相同的拓扑结构以及顶点编码相同的语义点。
Geometric Methods
几何测量方法直接估计 3D coordinates of a shape:
观测多视点中的相同表面点,挑战在于识别出多张图像中对应的坐标点。
观测 projected pattern,挑战在于识别出已知投影模式与投影图像之间的对应关系。
Photometric Methods
光度测量方法通常估计表面方向,从中通过积分恢复 3D 形状。
挑战在于选择能够精确捕获表面反射特性的模型,并获得足够的测量结果保证模型 well-posed.
Well-posed VS Ill-posed
适定性(well-posedness)是由法国数学家哈达玛(Jacques Hadamard)提出的一个概念,满足以下三个条件可以为认为是适定的(well-posed),否则认为是非适定的(ill-posed)。
- 解的存在性:问题有解;
- 解的唯一性:解是唯一的;
- 解的稳定性:解对测量数据的小变化(误差)不敏感。
反演是适定的(the inversion of these models is well-posed),意思是指模型通过测量数据准确地描述(反推出)表面反射特性(存在解),数据可以反推出唯一的表面反射特性(解唯一),测量误差不会导致反射特性结果不可靠(解稳定),因此称模型是适定的。
与几何方法相比,光度测量方法通常提供更高的形状细节,并且不依赖于可匹配特征的存在(因此适用于光滑、无特征的表面),但经常遭受由反射率建模误差引起的重建位置的低频偏差和照明。
Hybrid Methods
混合方法结合了几何以及光度测量方法的优势,具体而言,它减少了在光度测量方法中的低频偏差,同时增加了几何测量方法中的高频细节。
各种几何与光度测量方法的组合实现了许多不错的效果。
Appearance Capture
理论上,网格的每个顶点都可以具有关联的外观属性,通常形状被参数化 2D 域,纹理用于存储外观属性。
外观可以向将图像的颜色反投影到形状上一样简单,但这会导致烘培阴影效果(shaddnig effects to be backed in)。
3DMMs 中的外观模型大都结合从多个相机获取的对人脸全面覆盖的图像与漫射照明估计反射率。
内在分解(Intrinsic Decomposition)是将阴影与皮肤颜色显式分离可以达到更好的效果。这允许在新的入射照明条件下重新照亮面部,并且基于此类数据构建的 3DMM 可以真实地模拟面部的内在特征。
Face Part Specific Methods
重建人脸的特定部分需要一些专门的获取方法和设备,因为这些人脸部分都违背了之前方法做出的假设条件。
眼睛最前面的部分角膜是完全透明的,而且会扭曲虹膜外观;
具有挑战性的牙齿的外观;
头发违反了重建形状是光滑连续表示的常见假设,以及头发数据获取基于静态重建,运动中捕获还需要模拟头发运动以获取对应的物理属性。
Dynamic Capture
3DMMs 一直关注于静态形状的构建,而当该领域中开始引入更高时间信息到模型中去捕获脸部如何在表情之间转换,动态捕获系统就开始兴起了。
主动系统(Active Systems)在几何和光度测量方法中都开始被考虑。这种技术可以提供具有对应点的形状,而不需要后处理中进行表面点的对应。
面部捕捉领域比人脸建模发展的更超前,在捕获的数据质量与 3DMMs 实际采用的数据质量存在很大差距。面部捕捉技术用于获取尽可能高质量的人脸数据,是人脸建模的先导。
面部捕获领域也存在着许多问题限制了进一步的发展,
面部捕获技术已经能够捕获到足够高质量的数据,但是缺乏公开可用的数据集。
我们至少需要捕获多少人脸可以构建一个表示模型?
人脸表情不自然引起的捕获数据存在偏差问题。
正确的采样策略是怎样的,对于不同年龄、性别、种族等。
一些伦理与数据隐私相关的问题。
Modeling
建模一个3维数字人脸主要考虑以下三种变化:
- 形状模型捕获不同身份人脸的几何变化;
- 表情模型捕获不同人脸表情的几何变化;
- 外观模型捕获人脸的外观和照明变化。
Shape Model
形状模型主要包括 global model 表示整个人脸表面的变化,以及 localized model 表示人脸各部分的变化。
处理 3D 扫描数据:将一个模板网格变形到所有 3D 扫描数据上,以建立扫描点之间的结构对应关系。
形式化地定义,预处理的 mesh 表面记为 $S$,其对应的 $i$ th 顶点记为 $v_i\in R^3$ 及其关联的向量 $c\in R^{3n}$ 以固定的次序包好 $v_i$ 的坐标。
形状空间定义为一个 $d$ 维的参数空间($d\ll n$),表示 plausible 三维人脸,每一个人脸都与一个参数向量 $w\in R^d$ 相关。
在 3DMMs 中,statistical shape analysis 被用作生成模型,其形状空间都有一个关联的称为先验的概率分布,被定义为一个密度函数 $f(w)$,衡量真实的3D人脸由特定的向量 $w$ 表示的似然程度。这可以进一步地构造 generator function:
$$
c: R^d \rightarrow R^{3n}
$$
上式将低维空间中的参数向量 $w$ 映射为所有顶点坐标的向量 $c(w)\in R^{3n}$,值得关注的是怎样实现这样的密度函数。
Global Models
定义 $\lbrace S_i\rbrace_i$ 为所有的训练形状,$\lbrace c_i\rbrace_i$ 为关联的坐标向量。
第一篇工作提出采用 principal component analysis (PCA) 计算 linear generator function:
$$
c(w) = \overline{c} +Ew
$$
其中,$\overline{c}$ 表示所有训练数据的平均值,即平均脸,$E\in R^{3n\times d}$ 表示根据形状差异计算出的协方差矩阵的 $d$ 个最主要的特征向量。
Hypothesis:
训练的人脸可以通过线性插值生成新的 3D 人脸。(从生成器函数中即可看出线性运算,即对平均脸进行了平移)
参数化的形状空间 $R^d$ 遵循一个多变量正态分布,可以直接从对应于 $E$ 的特征值推导出来。
这表明密度函数 $f(w)$ 只是一个简单的 $w$ 到原点的 Mahalanobis distance。后续也有针对 Mahalanobis distance 做出改进的工作以及提出非线性形状空间的解决方案。
Local Models
原因是全局的 generator function 不会建模到更加精细的几何细节,局部模型主要用来提高对一些重要区域的建模。最初的研究方法主要是手动将眼睛分成若干区域并对每个区域单独学习 PCA 模型,能够实现更高保真度的重建,但是代价是造成不紧凑的特征向量表示 $w$。
自动分割区域的方法主要基于从训练集中相应顶点的位移中学到的信息。
细粒度的几何细节也可以通过特征金字塔建模,通过考虑光滑的表面与分辨率逐渐提高的几何表示之间的差异。
不仅仅局限于 PCA,利用其它统计方法进行局部分析也是可行的。
3D Morphable Face Models—Past, Present, and Future