教学参考-30
来自cslt Wiki
教学目标
- 了解人类语言的复杂性,从而了解机器翻译的困难所在
- 了解基于规则、基于统计和基于神经网络的三种机器翻译方法
教学内容
人类语言
- 据统计,人类有5000-7000种,大部分是没有形成文字的口语。在各种语言中,汉语占绝对优势,是使用人数最多的语言。
- 语言是人类的特有能力,不仅可表达丰富的思想,而且极具创造力,可以用有限的单元组合起来描述无穷无尽的新事物。
- 同时,人们创造了语法规则来约束语言过程,又随时可以打破这一约束,极为灵活。
- 最后,人类语言高度抽象,相似的符号意义完全不同。如英语里”to”和”too”,不论发音还是形态都很相似,但意义截然不同。
- 这些复杂性意味着从一门语言到另一门语言翻译非常困难。
基于规则的机器翻译方法
- 语言的多样性给交流带来极大障碍,因此,自计算机诞生之初人们就想到用机器代替人来进行翻译,如Warren Weaver在1947年写给 Norbert Wiener 的信中就谈到了机器翻译的设想。
- 美苏冷战时期,为了情报工作需要,美苏双方都在努力开发机器翻译系统。当时的翻译方式基本上是一本词典加上若干人为规则。例如,IBM推出第一台翻译机器IBM-701,基于6条文法转换规则和250个单词,成功将约 60 句俄文自动翻译成英文。这一成就极大激发了机器翻译研究者的热情。
- 然而,人们很快发现人类的语言非常复杂,不是拿本词典就可以翻译的。1966年以后,失望情绪开始蔓延,此后十年机器翻译研究几乎停滞。
- 70年代后,受乔姆斯基生成语法理论的影响,人们开始探索理解型翻译,即首先对源语言句子做自下而上的语法解析,再基于得到的语法结构做自上而下的目标语言生成。尽管思路上很清晰,但人们还是发现实际语言太过复杂,很多时候难以解析,翻译更加无从谈起。基于规则的翻译方法走入死胡同。
基于统计的机器翻译方法
- 考虑到规则对人类语言的脆弱性,人们开始研究基于数据驱动的机器翻译模型。一个重大突破是基于短语的统计机器翻译模型(SMT)的诞生。
- 如右图所示,基于大量平行语料库,首先对源句和目标句中的短语进行对齐,由此学习不同语言短语间的对应词典。基于这一短语词典,并结合目标语言的语言模型,即可实现较为顺畅的翻译。
- SMT依然保留了传统基于规则的翻译系统中关于词典和转换规则的概念,只不过这些词典和规则(语言模型)是通过数据学出来的,且具有概率意义,从而可处理语言的复杂性。
基于神经网络的机器翻译方法
- 2014年以来,以谷歌为代表的研究机构将深度学习引入机器翻译,称为神经机器翻译(NMT)。2018年,微软报告他们的中英机器翻译系统在WMT2017评测集上已经达到人类翻译员的水平。
- 和SMT不同,NMT中已经不再有规则的影子,不论是字典还是转换规则,都被实现在神经网络的连接权重中。这一根本变革使得系统结构变得更简单,学习能力也更强,同时也对数据提出了更高要求。
打破语言边界
- 从1947年Warren Weaver提出机器翻译的概念以来已经过去了70多年,现在NMT已经基本上可以满足主要语言之间的翻译需求了。然而,在小语种翻译任务上,NMT的性能还是差很远,打破语言边界的理想还没有完全实现。
- 近年来,人们研究了很多方法来解决这个问题,包括无监督学习方法,融合知识与数据的方法等。基于人类语言的共通性,可以预期未来机器翻译一定可以实现人类沟通无障碍的目标。