教学参考-20

来自cslt Wiki

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

了解人脸识别基本流程
了解早期基于人为特征的人脸识别方法和现代基于神经网络的人脸识别方法
讨论人脸识别技术可能带来的风险

教学内容

人脸识别的概念和基本流程

让机器从众多人脸中找出目标人脸，或判断两张人脸是否为同一个人。人脸识别在安防、金融、公开安全领域有广泛应用。
人脸识别大概分为如下几个步骤：（1）摄像头采集人像；（2）从人脸中分离出人脸区域；（3）对人脸进行特征提取；（4）对人脸进行识别
人脸识别是个统称，实际场景中可分为“确认”和“辨认”两种方案。在确认任务中，识别的目的是比对两张人脸照片是否属于同一个人，有时也叫1：1对比任务。例如在宾馆入住时，需要对比身份证上的照片是否与客人实际人脸相符。在辨认任务中，有一个人脸库，机器需要在把当前人脸在人脸库中进行比对，看是不是在人脸库中，并判断是人脸库中哪张脸。例如抓逃犯时，有个嫌疑人库，需要判断那些出现的人脸是否是某个嫌疑人。

人如何分辨面孔

人眼接收视觉信号后，在后脑的枕叶区进行处理，把人脸区域识别出来，再送入一个称为梭状回的特殊脑区，完成面孔辨识。
研究发现，善于交际的人梭状回活化程度更高，说明对人脸的反应更敏感。
研究表明，婴幼儿具有很强的面孔分辨能力，6个月大的婴儿不仅可以对不同种族的人脸进行有效识别，甚至可以识别不同猴子的脸。
成年以后，我们的识别系统具有更强的选择性，仅能识别自己同种族的人，这一现象称为“异族效应”。

人脸识别简史

人脸识别开始于上世纪60年代末，可分为模式识别、统计模型、机器学习、深度神经网络几个时代
早期人脸识别研究开始于上世纪60年代末。当时的研究可分为两个主要方向：基于几何特征的识别和基于模板匹配的识别。基于几何特征的识别是寻找脸部各个部件的间距、比例等几何特征，如眼睛和眉毛之间的距离，嘴角和鼻子之间的角度等。基于模板匹配的识别是将人脸看作一张灰度图提取整体特征。Bledsoe在1993年发表

了一篇文章，对这两种方法进行了对比，发现模板匹配方法性能更好。自此以后，基于几何特征的方法渐渐被淘汰，模板匹配法成为主流。

90年代后，人脸识别进入统计模型时代，最著名的统计模型方法是特征脸方法，由Turk等人于1991年提出。这一方法的主要思路是将一张人脸图片表示成若干有代表性的特征脸图片的加权和，取每张特征脸图片上的权重系数作为人脸特征。这一特征提取方法简洁高效，直到今天依然是公认的基线方法。特征脸方法启发了后续众多新算法的设计，

如Fisher脸方法，可以提取比特征脸权重系数更有区分性的特征。

21世纪的前十年，研究者开始关注真实场景下的人脸识别问题，基于大数据的机器学习模型开始受到重视。这一时期，基于局部描述子的Gabor特征和LBP特征成为主流特征。2009 年以后，稀疏编码（Sparse Coding）成为研究热点，其抗噪性较Gabor和LBP等特征有显著提高。这一时期，以核方法为代表的非线性模式匹配方法开始流行，特别是支持向量基（SVM）开始得到广泛应用，极大提高了模式匹配的精度。

2007年，免费开放的LFW人脸识别数据库开始流行。

2014年以来，深度学习技术大放异彩，成为人脸识别的主流技术。在2014年的CVPR大会上，Facebook发布了DeepFace 技术，将大数据（400万人脸数据）与深度卷积网络相结合，在LFW数据集上取得了逼近人类的识别精度。同一时期，香港中文大学提出名为DeepID的深度网络结构，采用20万训练数据，在LFW数据集上第一次得到超过人类水平的识别精度。自此之后，研究者们不断改进网络结构，同时扩大训练数据规模，将LFW上的识别精度推进到99.5%以上。

人为特征设计方法

经过长期进化，人的视觉系统天然具有抽象感知能力，从原始图像中发现脸部轮廓及五官部件。基于这些信息，即便是脸盲症患者，如果让他们仔细分辨，依然可以发现不同人脸的差异。
计算机则不同，它看到的图像不是一个整体画面，而是一个个感光点，每个感光点称为一个像素。这些像素整体上具有人脸的轮廓，但如果只观察局部图像，会发现非常混乱。
为解决这一问题，早期人脸识别的研究重点是如何从原始图像中提取出和人脸相关的有效特征，包括五官之间的几何关系，部件像素之间的相关性等。
特征脸是早期人脸识别的代表性方法。这一方法将一张人脸图片表示成若干“基础人脸”的加权和，对应于每个基础人脸的权重组成一组人脸特征。基于这一特征训练一个分类器（如线性分类器），即可实现人脸识别。

深度神经网络方法

人为特征设计有两个问题：（1）人设计的特征未必是最优的，有可能漏掉很多重要东西；（2）人设计的特征是以人的视角来看的，机器视角和人未必一样，可能需要不同的特征。
深度神经网络具有从原始图像中抽取出抽象特征的能力，极大解决了传统图像处理只见局部像素，不见整体模式的问题。
例如，可以利用一个深度卷积网络对人脸图片进行识别，输入是原始人脸图片，输出层的每个节点对应某个特定人，学习的目标是使网络输出在对应人的节点上接近1，在其他节点上接近0。
学习完成以后，网络将在底层检测简单的线条，在中间层检测人脸五官部件，在高层学检测典型人脸。这一结果验证了深度学习确实具有抽象特征的提取能力。
有了这些特征，就可以设计合理的分类器完成确认或辨认任务了。
深度神经网络于2014年开始应用于人脸识别，取得了极大成功，在一个称为LFW的数据集上很快取得了超过99%的准确率。

仿冒攻击

人脸识别系统常用在无人监控的场景下，很容易受到仿冒攻击，例如可以用一张目标人的人脸图片骗过验证系统，或在目标人不知情的前提下进行非受权验证。为了防范这种攻击，通常采用活体检测方法，让目标人眨眨眼或动动头，来确认目标人不是照片而且在配合验证。
近年来，视频伪造技术越来越强大，在线合成目标人的视频来骗过活体检测已经不是困难的事。另外，基于对抗样本的仿冒攻击带来的风险正在上升。有研究者发现，任何一个人戴上一副攻击眼镜，就可以骗过识别系统，实现对目标人的仿冒。
如何检测各种仿冒行为从而保证验证的真实性，是当前人脸识别技术面临的巨大挑战。同时，隐私泄露、数据滥用都是包括人脸识别在内的各种生物识别技术可能带来的现实风险。

取自“http://cslt.org/mediawiki/index.php?title=教学参考-20&oldid=38975”