“教学参考-24”版本间的差异
来自cslt Wiki
(以“==教学目标== * 了解深度生成模型,特别是了解为什么深度生成模型可以生成逼真的图片 * 了解deepfakes的基本原理,了解基础...”为内容创建页面) |
(没有差异)
|
2022年8月11日 (四) 05:00的最后版本
教学目标
- 了解深度生成模型,特别是了解为什么深度生成模型可以生成逼真的图片
- 了解deepfakes的基本原理,了解基础模型的工作原理
- 了解图片鉴伪的基本思路
- 讨论造假音视频带来的社会危害
教学内容
深度生成模型
- 随着深度学习的进步,深度神经网络生成的图片越来越逼真,几乎到了以假乱真的地步
- 深度生成模型之所以具有如此强大的能力,是因为它可以通过层次学习发现图片背后的生成因子。有了这些因子,再重新组合起来,就可生成逼真的人脸图像了。
- 换句话说,深度生成模型之所以如此强大,一个要有本原因是它对图片的生成过程有了深入“理解”,学会了图片应遵守的原则(如连续性,光线照射)等。而这些知识的取得是通过大量图片学习得到的。
Deepfakes
- 换脸技术人们已经研究了很多年。传统方法多采用图形学3D重建技术对面部部件进行变换和渲染。这些方法的问题是生成的照片修改痕迹较重,很容易被识别出来。
- Deepfakes是一种基于深度学习的换脸技术,它采用自编码器结构,但对这一结构进行了特别设计:所有人共享一个编码器,但每个人拥有各自的解码器,如右上图所示。由于编码空间有限,这一结构将鼓励编码器提取所有人的共同特征,如表情变化,口唇运动等,而那些个性化特征,如肤色,相貌等,则由每个人各自的解码器来处理。
- 模型训练完成后,将A的一张图片输入到共享的编码器,再通过另一个人B对应的解码器进行解码,就可以生成一张同样表情的B的人脸照片了。
- 因此,Deepfakes 的基础还是在于对人脸图像的分解,将内容(谁的人脸)和风格(表情动作)分离。编码器用来得到风格变量,解码器的参数用来表示内容(注意,一个人一个解码器),将风格变量和某个人的内容变量组合在一起,就完成了换脸。
- 注意,上面所展示的只是基础模型。事实上,所有人也可以共享一个解码器,只需要一个目标人脸的代表向量即可。这种方法不需要对每个目标人单独训练模型,只需目标人的一张照片即可实现换脸。
虚假图片检测
- 不论是无中生有的照片合成,还是Deepfakes的换脸,当前深度生成网络所生成的图片肉眼已经很难分辨了。然而,这也不是说造假图片毫无痕迹可查。如果仔细查看细节,可以看到AI生成的图片在细节方面还是有很明显缺失的。
- 研究者抓住这些细节差异,提出了若干虚假图片检测方法。例如,美国Buffalo大学研究者推出的基于双眼特性的检测工具,对GAN生成的人脸图片的检出率达到94%。
社会风险
- AI生成的虚拟视频资料在影视制作、娱乐、教育等领域有广泛应用,同时也带来了极大的社会风险。特别是以Deepfakes为代表的换脸技术,可能严重侵犯公民的人身权利,带来道德和法律风险。更加严重的是,目前网上有众多Deepfakes的开源代码,虚假图片和视频的制作成本大大降低。
- 目前,不仅换脸不成问题,换表情,换声音都成为现实,其逼真程度已经超出了肉眼的辨别能力,这是AI迄今为止给我们带来的最大的麻烦之一。
- 人们已经意识到这一风险并开始采取行动。亚马逊和微软等发起了Deepfakes检测竞赛,美国国防部也启动了虚假视频检测项目。
- 然而,道高一尺,魔高一丈,伪造和鉴伪之间斗争目前还在胶着中。