当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
第七回 重建巴别塔
  • 2017/3/28 10:45:45
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】2017年3月全国“两会”安徽团,讯飞公司向李克强总理演示了 “晓译”多语种翻译机,实时把汉语翻译成英语、维吾尔语。中国在机器翻译上表现出色。

统计翻译成为主角

      好景不长,机器翻译研究进展缓慢,开始受到质疑。1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC),进行为期两年的调研和测试。1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,建议停止经费支持。

      机器翻译研究进展缓慢是因为自然语言理解当时很难取得实质性突破。自然语言理解(Natural Language Understanding,NLU),是解决对语音信息和文本信息的理解问题的重要AI学科。通俗说,是要解决要听得懂和看得懂问题。语音翻译和文本翻译共同的难题都是自然语言理解。这是一个终极目标,所以许多研究者喜欢用另外一个词,即自然语言处理(Natural Language Processing, NLP)来描述这一学科,强调过程而不是目的。

      最初的研究者,从方法上,希望迅速找到语言规则,从而理解自然语言,解决机器翻译难题。但语言的规则太复杂。以文法规则来说,有人计算过,如果仅覆盖20%的真实语句,文法规则至少需要数万条。而如果要覆盖50%的真实语句,以后每增加一个新句子,就要新增数条文法规则。由于语言是发展和流动的,真实句子实际上变化无穷,文法规则难以穷尽。

      再从计算复杂度考虑,图灵奖得主高德納(Donald Ervin Knuth)从理论上指出了文法与计算复杂度的关系。如果上下文无关,计算复杂度是语句长度(即有多少单词)的二次方;而如果上下文有关,计算复杂度是语句长度的六次方。单单分析一个有二三十个单词的句子的文法,就是用今天的高性能计算机,也要计算几分钟。

      当然,上述分析是在非限制性的语言应用环境中得出的结论。然而,不同文化、不同学科、不同情景下应用语言都有各自的特征。因此,在限制语言环境中,问题要简化很多。于是基于语言规则的机器翻译仍在努力前行。而另一种方法,即基于统计的机器翻译开始崭露头角。

      上世纪70年代IBM沃森实验室的贾里尼克提出了统计语音识别的理论框架,用两个隐马尔可夫模型——声学模型和语言模型来清楚概括语音识别。这个框架对语音和语言处理都有着深远影响。从此,自然语言处理开始走上统计方法之路。

      统计语言学开创人贾里尼克有一句名言:我每开除一个语言学家,语音识别的正确率就提高1%。这句极端的话,说明他对语言规则的无视。

      统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),根据匹配概率,来评判和选择翻译结果。

      统计翻译另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。
      统计翻译避开语法规则,是威弗提出《翻译备忘录》时的原始想法。但统计翻译需要大规模的语料库,这在当时并不容易做到。所以,自然语言处理从基于规则转向基于统计经历了很长的过程。基于规则的自然语言处理,在采用新技术以后,仍在发挥作用。不过,随着互联网的普及,大规模语料库逐步建成,统计翻译最终成为主角。

Systran沉浮录

      机器翻译行业最早的开发者和软件提供商Systran是老一代基于规则的机器翻译技术的商业化代表,于1968由彼得·托马(Peter Toma)创办。托马当时在美国乔治城大学机器翻译项目组工作,之后他以大学研发小组为班底,创办Systran机器翻译公司。在ALPAC报告后,政府资助经费锐减,Systran成为少数几个活下来的机器翻译公司之一。1986年,Systran卖给法国一个家族,后来在法国上市;2014年,又卖给一家韩国公司。

      这家几十人的小公司,一直靠技术从上世纪60年代走到今天。发展到支持多语种互译,产品内嵌在雅虎、谷歌、美国在线等公司的翻译系统中。Systran公司年销售额只有1000多万美元,但在100亿美元的机器翻译市场中,却一度占了内嵌翻译引擎很大的份额。“我们公司如此之小,可我们又是最大的。”Systran 公司董事长自豪地说。

      关键的一战终于在2005年打响。谷歌公司虽然采用了Systran的规则翻译技术,但一直想充分利用自己的大语料库,从2002年起,谷歌从南加州大学挖来统计语言处理天才弗朗兹·奥克 (Franz Och), 组建机器翻译团队。2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,经过100万本图书的语料训练后初次亮相,在NIST(美国国家标准与技术研究院) 组织的机器翻译竞赛中将100 篇新闻文稿, 从阿拉伯语或汉语译成英语, 谷歌系统在所有类别上全胜,击败包括IBM在内的全部对手。

      这场竞赛,被看成是统计机器翻译正式登基的标志。

      2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。

本文出自2017-03-27出版的《电脑报》2017年第12期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖