“教学参考-20”版本间的差异

2022年8月9日 (二) 02:50的版本

教学目标

了解人脸识别基本流程
了解早期基于人为特征的人脸识别方法和现代基于神经网络的人脸识别方法
讨论人脸识别技术可能带来的风险

教学内容

人脸识别的概念和基本流程

让机器从众多人脸中找出目标人脸，或判断两张人脸是否为同一个人。人脸识别在安防、金融、公开安全领域有广泛应用。
人脸识别大概分为如下几个步骤：（1）摄像头采集人像；（2）从人脸中分离出人脸区域；（3）对人脸进行特征提取；（4）对人脸进行识别
人脸识别是个统称，实际场景中可分为“确认”和“辨认”两种方案。在确认任务中，识别的目的是比对两张人脸照片是否属于同一个人，有时也叫1：1对比任务。例如在宾馆入住时，需要对比身份证上的照片是否与客人实际人脸相符。在辨认任务中，有一个人脸库，机器需要在把当前人脸在人脸库中进行比对，看是不是在人脸库中，并判断是人脸库中哪张脸。例如抓逃犯时，有个嫌疑人库，需要判断那些出现的人脸是否是某个嫌疑人。

人如何分辨面孔

人眼接收视觉信号后，在后脑的枕叶区进行处理，把人脸区域识别出来，再送入一个称为梭状回的特殊脑区，完成面孔辨识。
研究发现，善于交际的人梭状回活化程度更高，说明对人脸的反应更敏感。
研究表明，婴幼儿具有很强的面孔分辨能力，6个月大的婴儿不仅可以对不同种族的人脸进行有效识别，甚至可以识别不同猴子的脸。
成年以后，我们的识别系统具有更强的选择性，仅能识别自己同种族的人，这一现象称为“异族效应”。

人脸识别简史

人脸识别开始于上世纪60年代末，可分为模式识别、统计模型、机器学习、深度神经网络几个时代
早期人脸识别研究开始于上世纪60年代末。当时的研究可分为两个主要方向：基于几何特征的识别和基于模板匹配的识别。基于几何特征的识别是寻找脸部各个部件的间距、比例等几何特征，如眼睛和眉毛之间的距离，嘴角和鼻子之间的角度等。基于模板匹配的识别是将人脸看作一张灰度图提取整体特征。Bledsoe在1993年发表

了一篇文章，对这两种方法进行了对比，发现模板匹配方法性能更好。自此以后，基于几何特征的方法渐渐被淘汰，模板匹配法成为主流。

90年代后，人脸识别进入统计模型时代，最著名的统计模型方法是特征脸方法，由Turk等人于1991年提出。这一方法的主要思路是将一张人脸图片表示成若干有代表性的特征脸图片的加权和，取每张特征脸图片上的权重系数作为人脸特征。这一特征提取方法简洁高效，直到今天依然是公认的基线方法。特征脸方法启发了后续众多新算法的设计，

如Fisher脸方法，可以提取比特征脸权重系数更有区分性的特征。

21世纪的前十年，研究者开始关注真实场景下的人脸识别问题，基于大数据的机器学习模型开始受到重视。这一时期，基于局部描述子的Gabor特征和LBP特征成为主流特征。2009 年以后，稀疏编码（Sparse Coding）成为研究热点，其抗噪性较Gabor和LBP等特征有显著提高。这一时期，以核方法为代表的非线性模式匹配方法开始流行，特别是支持向量基（SVM）开始得到广泛应用，极大提高了模式匹配的精度。

2007年，免费开放的LFW人脸识别数据库开始流行。

2014年以来，深度学习技术大放异彩，成为人脸识别的主流技术。在2014年的CVPR大会上，Facebook发布了DeepFace 技术，将大数据（400万人脸数据）与深度卷积网络相结合，在LFW数据集上取得了逼近人类的识别精度。同一时期，香港中文大学提出名为DeepID的深度网络结构，采用20万训练数据，在LFW数据集上第一次得到超过人类水平的识别精度。自此之后，研究者们不断改进网络结构，同时扩大训练数据规模，将LFW上的识别精度推进到99.5%以上。

人为特征设计方法

经过长期进化，人的视觉系统天然具有抽象感知能力，从原始图像中发现脸部轮廓及五官部件。基于这些信息，即便是脸盲症患者，如果让他们仔细分辨，依然可以发现不同人脸的差异。
计算机则不同，它看到的图像不是一个整体画面，而是一个个感光点，每个感光点称为一个像素。这些像素整体上具有人脸的轮廓，但如果只观察局部图像，会发现非常混乱。
为解决这一问题，早期人脸识别的研究重点是如何从原始图像中提取出和人脸相关的有效特征，包括五官之间的几何关系，部件像素之间的相关性等。
特征脸是早期人脸识别的代表性方法。这一方法将一张人脸图片表示成若干“基础人脸”的加权和，对应于每个基础人脸的权重组成一组人脸特征。基于这一特征训练一个分类器（如线性分类器），即可实现人脸识别。

深度神经网络方法

人为特征设计有两个问题：（1）人设计的特征未必是最优的，有可能漏掉很多重要东西；（2）人设计的特征是以人的视角来看的，机器视角和人未必一样，可能需要不同的特征。
深度神经网络具有从原始图像中抽取出抽象特征的能力，极大解决了传统图像处理只见局部像素，不见整体模式的问题。
例如，可以利用一个深度卷积网络对人脸图片进行识别，输入是原始人脸图片，输出层的每个节点对应某个特定人，学习的目标是使网络输出在对应人的节点上接近1，在其他节点上接近0。
学习完成以后，网络将在底层检测简单的线条，在中间层检测人脸五官部件，在高层学检测典型人脸。这一结果验证了深度学习确实具有抽象特征的提取能力。
有了这些特征，就可以设计合理的分类器完成确认或辨认任务了。

@@ 第15行： / 第15行： @@
-===深度神经网络训练===
+===人如何分辨面孔 ===
-* 研究者很早就意识到多层神经网络具有更强的学习能力，然而在实验中，多层网络并没有表现出比三层网络更好的性能，一个重要原因是多层网络的训练非常困难。
+* 人眼接收视觉信号后，在后脑的枕叶区进行处理，把人脸区域识别出来，再送入一个称为梭状回的特殊脑区，完成面孔辨识。
-* 原则上，反向传播算法可以训练任意深度的神经网络，然而实际情况却并不乐观。这是因为神经网络非常复杂，训练过程中会遇到很多马鞍点和局部小点，要想避开这些点，并不容易。
+* 研究发现，善于交际的人梭状回活化程度更高，说明对人脸的反应更敏感。
-* 2006年，多伦多大学的杰弗里·辛顿提出了一种预训练方法，先训练浅层网络，再一层层叠加起来，最终得到深层网络。辛顿发现，通过这种预训练得到的深层网络具有比浅层网络更好的性能。
+* 研究表明，婴幼儿具有很强的面孔分辨能力，6个月大的婴儿不仅可以对不同种族的人脸进行有效识别，甚至可以识别不同猴子的脸。
-* 在此之后，众多学者投入到这一研究方向，深度学习成为人工智能最活跃的方向和代表性技术。因在深度学习研究中的突出贡献，约书亚·本吉奥、杰弗里·辛顿、杨立昆共同荣获2018年图灵奖。
+* 成年以后，我们的识别系统具有更强的选择性，仅能识别自己同种族的人，这一现象称为“异族效应”。
+===人脸识别简史 ===
-===抽象特征学习：深度神经网络的秘密===
+* 人脸识别开始于上世纪60年代末，可分为模式识别、统计模型、机器学习、深度神经网络几个时代
+* 早期人脸识别研究开始于上世纪60年代末。当时的研究可分为两个主要方向：基于几何特征的识别和基于模板匹配的识别。基于几何特征的识别是寻找脸部各个部件的间距、比例等几何特征，如眼睛和眉毛之间的距离，嘴角和鼻子之间的角度等。基于模板匹配的识别是将人脸看作一张灰度图提取整体特征。Bledsoe在1993年发表
+了一篇文章，对这两种方法进行了对比，发现模板匹配方法性能更好。 自此以后，基于几何特征的方法渐渐被淘汰，模板匹配法成为主流。
+* 90年代后，人脸识别进入统计模型时代，最著名的统计模型方法是特征脸方法，由Turk等人于1991年提出。这一方法的主要思路是将一张人脸图片表示成若干有代表性的特征脸图片的加权和，取每张特征脸图片上的权重系数作为人脸特征。这一特征提取方法简洁高效，直到今天依然是公认的基线方法。特征脸方法启发了后续众多新算法的设计，
+如Fisher脸方法，可以提取比特征脸权重系数更有区分性的特征。
+* 21世纪的前十年，研究者开始关注真实场景下的人脸识别问题，基于大数据的机器学习模型开始受到重视。这一时期，基于局部描述子的Gabor特征和LBP特征成为主流特征。2009 年以后，稀疏编码（Sparse Coding）成为研究热点，其抗噪性较Gabor和LBP等特征有显著提高。 这一时期，以核方法为代表的非线性模式匹配方法开始流行，特别是支持向量基（SVM）开始得到广泛应用，极大提高了模式匹配的精度。
+年，免费开放的LFW人脸识别数据库开始流行。
+* 2014年以来，深度学习技术大放异彩，成为人脸识别的主流技术。在2014年的CVPR大会上，Facebook发布了DeepFace 技术，将大数据（400万人脸数据）与深度卷积网络相结合，在LFW数据集上取得了逼近人类的识别精度。同一时期，香港中文大学提出名为DeepID的深度网络结构，采用20万训练数据，在LFW数据集上第一次得到超过人类水平的识别精度。自此之后，研究者们不断改进网络结构，同时扩大训练数据规模，将LFW上的识别精度推进到99.5%以上。
-* 深度神经网络之所以如此强大，一个很重要的原因在于它可以通过层次性处理逐渐提取抽象特征。在网络底层，神经元被一些简单的线条所激发，但到了网络高层，激发神经元的将是一些有代表性的图案。这说明网络以一种层次性的方式对特征进行提取，越到后面得到的特征越高级，越抽象。因此，深度学习也常被称为表示学习。
-* 对抽象特征的学习具有重要意义，可以带来更强的可扩展性。例如，我们把一张人脸照片加入各种变化，如噪点，缩放、旋转，这时低层特征会发生显著变化，但人脸依然是人脸，在抽象的概念层次不会发生变化。这种不变性是实现可扩展性的基础。
-* 抽象特征学习可以从原始数据开始，不需要人为的特征设计。这一强大能力使得研究者不再需要专门设计特征提取过程，只要数据足够，机器可以自动从数据中提取出有价值的特征。自动特征学习不仅简化了模型设计与构造，也避免了人为设计特征可能存在的缺陷。
-* 最后，人们发现深度学习和人类的信息处理方式很相似。人类处理信息是层次性的，深层网络的处理方式和人类大脑里的处理方式很像。
-===深度神经网络与现代人工智能===
+===人为特征设计方法===
+* 经过长期进化，人的视觉系统天然具有抽象感知能力，从原始图像中发现脸部轮廓及五官部件。基于这些信息，即便是脸盲症患者，如果让他们仔细分辨，依然可以发现不同人脸的差异。
+* 计算机则不同，它看到的图像不是一个整体画面，而是一个个感光点，每个感光点称为一个像素。这些像素整体上具有人脸的轮廓，但如果只观察局部图像，会发现非常混乱。
+* 为解决这一问题，早期人脸识别的研究重点是如何从原始图像中提取出和人脸相关的有效特征，包括五官之间的几何关系，部件像素之间的相关性等。
+* 特征脸是早期人脸识别的代表性方法。这一方法将一张人脸图片表示成若干“基础人脸”的加权和，对应于每个基础人脸的权重组成一组人脸特征。基于这一特征训练一个分类器（如线性分类器），即可实现人脸识别。
-* 深度神经网络兴起之后，在机器视觉、机器听觉、自然语言处理、机器人等众多领域取得极大成功。现在我们知道，辛顿当初提出的预训练方案并不是必要的，只要数据量足够大，计算资源足够丰富，就可以成功训练一个强大的深度神经网络模型。从这个角度上看，与其说是深度学习多么强大，不如说是大量数据的积累和计算机性能的提高使得大规模机器学习成为可能。
-* 最后，开源成为研究界的共识，出现了大量开源的代码、数据和论文。这些开源资源的出现极大促进了技术交流和技术进步，为当前人工智能浪潮打上了独特的历史烙印。
+===深度神经网络方法===
+* 人为特征设计有两个问题：（1）人设计的特征未必是最优的，有可能漏掉很多重要东西；（2）人设计的特征是以人的视角来看的，机器视角和人未必一样，可能需要不同的特征。
+* 深度神经网络具有从原始图像中抽取出抽象特征的能力，极大解决了传统图像处理只见局部像素，不见整体模式的问题。
+* 例如，可以利用一个深度卷积网络对人脸图片进行识别，输入是原始人脸图片，输出层的每个节点对应某个特定人，学习的目标是使网络输出在对应人的节点上接近1，在其他节点上接近0。
+* 学习完成以后，网络将在底层检测简单的线条，在中间层检测人脸五官部件，在高层学检测典型人脸。这一结果验证了深度学习确实具有抽象特征的提取能力。
+* 有了这些特征，就可以设计合理的分类器完成确认或辨认任务了。

“教学参考-20”版本间的差异

2022年8月9日 (二) 02:50的版本

目录

教学目标

教学内容

人脸识别的概念和基本流程

人如何分辨面孔

人脸识别简史

人为特征设计方法

深度神经网络方法

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具