面部表情对生物识别的影响研究
立即解锁
发布时间: 2025-08-22 01:17:08 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 面部表情对生物识别的影响研究
#### 1. 引言
经典情绪理论表明,存在六到七种基本情绪,无论人们来自何处,都普遍拥有这些情绪。相关研究也证实,从西方人到与世隔绝的部落成员,都能通过典型的面部表情轻易识别这些情绪。面部表情分析有着广泛的应用,例如在人机交互中,可实现更友好的人机互动。因为计算机若要与人类有效交互,就需要具备理解人类情绪状态的能力,而面部表情是人类表达情绪最直接的方式。
不过,情绪分析比面部表情分析更复杂,需要更高层次的知识。面部表情不仅能传达情绪,还能表达意图、认知过程、身体努力等多种意义。本文不侧重于估计不同的面部表情,而是研究面部表情对基于面部图像的生物识别系统识别率的影响。生物识别问题和表情分析的目标有所不同:
- 生物识别问题目标:提取对表情不敏感,但能有效区分不同个体的特征。
- 表情分析目标:提取对个体差异不敏感,但能有效区分不同表情的特征。
虽然这两个目标看似相反,但在语音和说话人识别问题中,MEL - 倒谱系数这种参数化方法对两者都适用,因此在面部识别中也可能存在类似情况。本文主要聚焦于特征提取,尽管分类器也起着重要作用。
#### 2. 面部识别方法
通常,模式识别系统由特征提取和分类器两个主要部分组成。面部识别主要有两种方法:
- **统计方法**:将图像视为高维向量,每个像素对应向量的一个分量。由于向量维度高,需要使用降维算法,常见的是Karhunen - Loeve变换(KLT),简化版为特征脸算法,但该算法并非最优。
- **基于几何特征的方法**:试图识别面部各部分(如眼睛、鼻子、嘴巴等)的位置和关系,提取这些区域的纹理、形状、大小等参数。
本文主要研究使用统计方法进行面部识别的特征提取,采用离散余弦变换(DCT)和沃尔什 - 哈达玛变换(WHT)。
##### 2.1 离散余弦变换(DCT)
DCT是JPEG和MPEG等图像编码应用的基础,在面部识别中也取得了成功。它具有快速计算、降维和对光照变化鲁棒的特点。DCT是可分离的线性变换,二维DCT可通过在一个维度上进行一维DCT,再在另一个维度上进行一维DCT来实现。对于输入图像A和变换后的图像B,二维DCT的定义如下:
\[
B_{pq}=\alpha_p\alpha_q\sum_{m = 0}^{M - 1}\sum_{n = 0}^{N - 1}A_{mn}\cos\left[\frac{\pi(2m + 1)p}{2M}\right]\cos\left[\frac{\pi(2n + 1)q}{2N}\right]
\]
其中:
- \(0\leq p\leq M - 1\) 且 \(0\leq q\leq N - 1\)
- \(\alpha_p=\begin{cases}\frac{1}{\sqrt{M}},&p = 0\\\sqrt{\frac{2}{M}},&1\leq p\leq M - 1\end{cases}\)
- \(\alpha_q=\begin{cases}\frac{1}{\sqrt{N}},&q = 0\\\sqrt{\frac{2}{N}},&1\leq q\leq N - 1\end{cases}\)
- M和N分别是图像A的行数和列数。
DCT应用于图像(实数据)时,会产生实结果。它在数据压缩应用中比离散傅里叶变换(DFT)更受欢迎,因为它具有“能量集中”的特性,大部分能量集中在原点附近(即左上角的低频分量)。因此,为了对图像进行分类,只需将变换后图像的一部分(左上角的N’ x N’像素窗口)提供给分类器即可。
##### 2.2 沃尔什 - 哈达玛变换(WHT)
沃尔什 - 哈达玛变换的基函数可以用哈达玛矩阵表示。哈达玛矩阵\(H_n\)是一个\(N\times N\)的矩阵,元素值为\(\pm1\),其中\(N = 2^n\)。在信号处理中,基函数按零交叉数递增的顺序排列成矩阵的行。有序哈达玛矩阵可通过以下方程获得:
\[
H(x,u)=\frac{1}{N}\sum_{i = 0}^{n - 1}(- 1)^{b_i(x)p_i(u)}
\]
其中:
- \(b_k(x)\)是x的二进制表示中的第k位。
- \(p_0(u)=b_{n - 1}(u)\)
- \(p_1(u)=b_{n - 1}(u)+b_{n - 2}(u)\)
- \(p_2(u)=b_{n - 2}(u)+b_{n - 3}(u)\)
- \(\cdots\)
- \(p_{n - 1}(u)=b_1(u)+b_0(u)\)
- 上述求和采用模2运算。
对于一个\(2^n\times2^n\)像素的图像U,二维哈达玛变换对可通过方程\(H_nUH_n^T\)获得。在实验中,将112×96的图像零填充为256×256,此时\(n = 8\)。
沃尔什 - 哈达玛变换(WHT)的性能略逊于离散余弦变换(DCT)和Karhunen - Loeve变换(KLT),但它是一种快速变换,在变换计算中不需要乘法,只包含\(\pm1\)值,非常适合定点处理器。以下是KLT、DCT和WHT的计算负担和执行时间对比:
| 变换 | 基函数计算 | 图像变换 |
| --- | --- | --- |
| KLT | \(O(N^3)\)(求解2个N×N矩阵的特征值问题) | \(2N^3\)次乘法 |
| DCT | 0 | \(2N^2\log_2N\)次乘法 |
| WHT | 0 | \(2N^2\log_2N\)次加法或减法 |
| 变换 | 基函数计算执行时间 | 图像变换执行时间 |
| --- | --- | --- |
| KLT | 347.78s | 0.23s |
| DCT | 0 | 0.0031s |
| WHT | 0 | 0.0003s |
可以定义一个矩形掩码(N’ x N’像素的正方形),方便获取系数,得到的向量维度为N’ x N’。在图像编码中,图像被分割成小尺寸的块,选择每个块的变换系数进行编码和解码图像的重建;而在面部识别中,所有操作都在整个图像上进行(不分割成块),所有计算都在变换域中完成,无需进行逆变换。图像编码的目标是在不显著牺牲重建图像质量的前提下减少比特数,而图像识别的目标是降低向量维度,简化分类器的复杂度并提高识别准确率。
#### 3. 实验结果
本部分使用最近邻分类器评估WHT和DCT特征提取方法的效果。
##### 3.1 数据库
JAFFE(日本女性面部表情)数据库包含10名日本女性的摆拍情感面部表情图像,有6种不同的情绪和中性表情。这些情绪对应Ekman和Friesen提出的6种基本情绪,包括快乐、悲伤、恐惧、厌恶、惊讶和愤怒,且似乎在人类各民族和文化中具有普遍性。图像为灰度tiff格式,大小为112×96。由于数据库中某些个体和表情的样本数量不同,为了使每个人和每种情绪的图像数量相同,丢弃了一些图像。以下是每种表情的实验次数:
| 表情 | 训练1(每人1张中性脸训练) - 识别 | 训练1 - 验证(真样本) | 训练1 - 验证(假样本) | 训练3(每人3张中性脸训练) - 识别 | 训练3 - 验证(真样本) | 训练3 - 验证(假样本) |
| --- | --- | --- | --- | --- | --- | --- |
| 愤怒 | 10×10×3 | 10×3 | 9×10×3 | | | |
| 厌恶 | 10×10×2 | 10×2 | 9×10×2 | | | |
| 恐惧 | 10×10×3 | 10×3 | 9×10×3 | | | |
| 快乐 | 10×10×2 | 10×2 | 9×10×2 | | | |
| 中性 | 10×10×2 | 10×2 | 9×10×2 | 不可用 | 不可用 | 不可用 |
| 悲伤 | 10×10×3 | 10×3 | 9×10×3 | | | |
| 惊讶 | 10×10×3 | 10×3 | 9×10×3 | | | |
##### 3.2 实验条件
生物识别识别率和验证误差通过以下方式获得:分别使用每人1张中性脸(训练1)或每人3张中性脸(训练3)进行训练,然后用不同表情的图像进行测试。使用两种不同的距离度量方法来计算训练向量和测试向量之间的距离:
- 均方误差(MSE):\(MSE(\vec{x},\vec{y})=\sum_{i = 1}^{N'}(x_i - y_i)^2\)
- 平均绝对差(MAD):\(MAD(\vec{x},\vec{y})=\sum_{i = 1}^{N'}|x_i - y_i|\)
其中\(N'\times N'\)是表示面部的向量维度。
通过一系列图表展示了DCT和WHT在不同面部表情下,识别率和验证误差随向量维度的变化情况。结果表明,最优的向量维度约为100个分量,且该值在不同表情下相当稳定。以下是DCT在100个系数时的识别率和最小检测成本函数(Min(DCF)):
| **识别率(%) - DCT** | **MAD - 训练1** | **MAD - 训练3** | **MSE - 训练1** | **MSE - 训练3** |
| --- | --- | --- | --- | --- |
| 愤怒 | 70 | 83.33 | 66.67 | 73.33 |
| 厌恶 | 65 | 70 | 75 | 90 |
| 恐惧 | 70 | 76.67 | 90 | 90 |
| 快乐 | 80 | 90 | 95 | 100 |
| 中性 | 100 | | 100 | |
| 悲伤 | 96.67 | 100 | 96.67 | 100 |
| 惊讶 | 96.67 | 100 | 90 | 100 |
| **最小检测成本函数(%) - DCT** | **MAD - 训练1** | **MAD - 训练3** | **MSE - 训练1** | **MSE - 训练3** |
| --- | --- | --- | --- | --- |
| 愤怒 | 13.91 | 10.46 | 14.7 | 11.32 |
| 厌恶 | 14.25 | 11.98 | 11.98 | 10.96 |
| 恐惧 | 15.19 | 14.05 | 7.69 | 8.31 |
| 快乐 | 9.85 | 4.63 | 3.75 | 2.73 |
| 中性 | 1.06 | | 0 | |
| 悲伤 | 7.38 | 7.25 | 3.5 | 2.45 |
| 惊讶 | 8.54 | 7.92 | 4.91 | 3.5 |
综上所述,面部表情会对生物识别系统的识别率产生影响,但在不同表情下,特征提取向量的最优长度保持一致。这一发现为进一步优化面部识别系统提供了有价值的参考。
#### 4. 特征提取方法对比与分析
在面部识别中,离散余弦变换(DCT)和沃尔什 - 哈达玛变换(WHT)作为两种重要的特征提取方法,各有其特点和优势。
从计算复杂度来看,KLT的计算负担最重,其基函数计算需要求解2个N×N矩阵的特征值问题,时间复杂度为\(O(N^3)\),图像变换需要\(2N^3\)次乘法。而DCT和WHT在基函数计算上相对简单,DCT的图像变换需要\(2N^2\log_2N\)次乘法,WHT则只需要\(2N^2\log_2N\)次加法或减法。从执行时间上也能明显看出差异,KLT的基函数计算执行时间长达347.78s,而DCT和WHT在基函数计算上几乎不花费时间,图像变换执行时间DCT为0.0031s,WHT更是仅为0.0003s。这表明在实际应用中,DCT和WHT在计算效率上具有明显优势。
在性能方面,DCT具有“能量集中”的特性,大部分能量集中在低频分量,这使得在分类时只需选取变换后图像左上角的部分系数就能较好地代表图像特征。WHT虽然性能略逊于DCT和KLT,但它是一种快速变换,且在变换计算中不需要乘法,非常适合定点处理器。
从实验结果来看,DCT和WHT在不同面部表情下的识别率和验证误差随向量维度的变化情况显示,最优的向量维度约为100个分量,且该值在不同表情下相当稳定。这说明在面部识别中,选择合适的向量维度对于提高识别准确率至关重要,而不受面部表情的影响。
#### 5. 生物识别与表情分析目标差异探讨
生物识别问题和表情分析的目标存在明显差异。生物识别的目标是提取对表情不敏感,但能有效区分不同个体的特征;而表情分析的目标是提取对个体差异不敏感,但能有效区分不同表情的特征。
这种差异源于两者的应用场景不同。生物识别主要用于身份验证等领域,需要确保在不同表情下都能准确识别个体身份,因此要求特征提取方法对表情变化具有鲁棒性。而表情分析则侧重于理解人类的情绪状态,需要突出不同表情之间的差异,对个体的差异相对不敏感。
然而,就像语音和说话人识别问题中MEL - 倒谱系数对两者都适用一样,在面部识别中也可能存在一种特征提取方法,能够同时满足生物识别和表情分析的部分需求。虽然目前实验中尚未发现这样的通用方法,但这为未来的研究提供了一个方向。
#### 6. 实验结果的实际应用意义
本次实验结果对于面部识别技术的实际应用具有重要意义。
在生物识别系统的设计中,了解面部表情对识别率的影响,可以针对性地优化特征提取方法和分类器。例如,根据实验结果确定最优的特征向量维度为100个分量,在实际系统中可以固定该维度,提高识别效率和准确率。同时,对于不同的面部表情,可以采用不同的训练策略,如增加特定表情的训练样本,以提高系统在各种表情下的识别性能。
在人机交互领域,通过对表情分析和生物识别的研究,可以使计算机更好地理解人类的情绪状态和身份信息,从而提供更加个性化和友好的交互体验。例如,当识别到用户处于愤怒情绪时,计算机可以调整交互方式,提供安抚和解决方案。
#### 7. 研究的局限性与未来展望
尽管本次研究取得了一定的成果,但也存在一些局限性。
首先,实验使用的JAFFE数据库仅包含日本女性的面部表情图像,样本的多样性有限。不同种族、性别、年龄的人群面部特征和表情表现可能存在差异,因此实验结果可能不适用于更广泛的人群。
其次,实验仅考虑了6种基本情绪和中性表情,实际生活中的面部表情更加复杂多样,还包括一些混合表情和微表情。未来的研究可以扩大数据库的规模和多样性,涵盖更多的表情类型,以提高研究的全面性和准确性。
此外,本次研究主要关注特征提取方法,对于分类器的优化和改进涉及较少。未来可以进一步研究不同分类器在面部识别中的性能,结合特征提取方法进行综合优化,以提高面部识别系统的整体性能。
综上所述,面部表情对生物识别的影响是一个复杂而有意义的研究领域。通过不断深入研究和改进,有望提高面部识别技术的准确性和可靠性,为生物识别和人机交互等领域带来更多的应用价值。
### 总结
本文围绕面部表情对生物识别的影响展开研究,介绍了生物识别和表情分析的不同目标,详细阐述了离散余弦变换(DCT)和沃尔什 - 哈达玛变换(WHT)两种特征提取方法,通过实验分析了它们在不同面部表情下的性能表现。实验结果表明,面部表情会对生物识别系统的识别率产生影响,但特征提取向量的最优长度在不同表情下保持一致。同时,研究也指出了目前存在的局限性,并对未来的研究方向进行了展望。这些研究成果为进一步优化面部识别系统提供了有价值的参考,有助于推动生物识别和人机交互等领域的发展。
以下是一个简单的mermaid流程图,展示面部识别的基本流程:
```mermaid
graph LR
A[输入面部图像] --> B[特征提取(DCT或WHT)]
B --> C[选择合适的向量维度(约100个分量)]
C --> D[最近邻分类器进行分类]
D --> E[输出识别结果]
```
这样的流程可以帮助我们更清晰地理解面部识别的整个过程,在实际应用中可以根据具体需求进行调整和优化。
同时,为了更直观地对比不同特征提取方法的特点,我们再次列出表格:
| 变换 | 计算复杂度 | 执行时间 | 特点 |
| --- | --- | --- | --- |
| KLT | 基函数计算\(O(N^3)\),图像变换\(2N^3\)次乘法 | 基函数计算347.78s,图像变换0.23s | 计算负担重 |
| DCT | 图像变换\(2N^2\log_2N\)次乘法 | 基函数计算几乎为0,图像变换0.0031s | 能量集中,计算效率较高 |
| WHT | 图像变换\(2N^2\log_2N\)次加法或减法 | 基函数计算几乎为0,图像变换0.0003s | 快速变换,适合定点处理器 |
通过这些表格和流程图,我们可以更全面地了解面部识别技术的相关知识和本次研究的主要内容。
0
0
复制全文
相关推荐









