教学参考-23

来自cslt Wiki

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

理解图片的内容与风格
了解图片的内容与风格两种信息在神经网络中的保存方式
了解基于内容-风格分离的图片风格转换方法
讨论AI作画的艺术创作成分

教学内容

内容与风格

一张图片里既包含内容信息也包含风格信息。内容是图片所展示的事物本身，风格是展示的方式。如下面三幅图所示，我们很容易判断出前两张图的内容是一样的，而后两张图的风格一样。
到目前为止，我们还不太清楚人的感知系统是如何区分内容和风格，然而很多证据表明，内容和风格是可以分离的，这为图片的风格转换提供了可能。
直觉上看，内容更多是局部特性，而风格更多是整体属性。

深度神经网络中的内容与风格

德国图宾根大学的研究者发现，用于目标识别的深度卷积神经网络通过某种方式对图片的内容与风格进行了分离。如上图所示，他们用图片还原了不同层次的神经元激发值（下半部分）以及激发值之间的关系矩阵（上半部分）。具体做法是，从一张初始图片开始不断进行调整，使得该图片经过神经网络后得到与原图相似的激发或关系矩阵。
可以看到，在较深层次上，神经元激发值可以还原图中所包含的景物，但丢弃了风格细节；相反，神经元之间的相关性不包含图片内容，而是保留了颜色分布等风格信息，并且随着层次变深，神经元感受野增大，所代表的风格在空间尺度上也逐渐增大。
这一分离效果与网络结构和训练目标是相关的。因为模型训练的目标是物体识别，为了实现这一目标，网络会逐层去掉风格的影响，仅关注内容模式（如一个球形，一个月牙等）。基于卷积网络的特性，当图片上出现某一模式时会在相应位置激发对应的神经元，这意味着神经元的激发值反应了图片中所包含的内容。同时，不同神经元在空间上的激发关系代表了图片的整体布局情况，因此反应了图片的风格特征。

高级美颜：因子分解

利用深度神经网络的内容-风格分离能力，可以将一幅图的风格迁移到另一幅图上。具体的做法是，给定内容图片C和风格图片S，随机初始化一幅图片X，对X逐渐修正，使它经过一个卷积网络后得到的激发值与C相近，而激发值之间的关系矩阵与S相近。经过多次调整后，X将逐渐接近C表达的内容，但具有和S相近的风格。
研究者对这一方法提出了若干改进方案。例如，可以用多个风格图片实现混合风格迁移。如下图所示，左右各是一种作品风格，中间为将两种风格以不同比例混合在一起作为目标得到的迁移效果。

还原毕加索的隐藏画

历史上一些大画家都有不如意的时候，如毕加索，1901-1904年间几乎穷困潦倒。可能是为了省钱，有些作品不得不复用已经用过的画布。例如，通过X射线扫描，人们发现他在这一时期创作的作品《The Crouching Beggar》（下图1）背后隐藏着另一风景画（下图2）。
经过人工编辑，人们还原了这幅画作（下图3），并发现画作描绘的是巴萨罗那的奥尔塔花园。然而，因为是从X扫描图上分析出来的，人们只能看到这幅画的内容，缺少了颜色风格。科学家们利用前述的风格迁移方法复现了这件作品。
他们选择了圣地亚哥·鲁西诺尔的《Terraced Garden in Mallorca》作为风格（下图4），因为这幅作品在创作时间和内容上都与毕加索那幅隐藏的画相近。下图5是还原的结果。

AI艺术创作

机器确实可以展示出极高的创作能力，而这种能力和人的艺术创作过程是有类似性的。
通过将风格以数学形式提取出来，机器可以模拟人的创作特点，这是一个很值得讨论的进步。然而，如此就此断言机器有创造性还为时过晚，它毕竟模仿的是人的创作过程，同时也要从人的眼光去看是否成功。

取自“http://cslt.org/mediawiki/index.php?title=教学参考-23&oldid=39007”