- 2018/10/30 11:17:55
- 类型:原创
- 来源:电脑报
- 报纸编辑:电脑报
- 作者:王冰洁
上个月,由于科大讯飞“AI同传造假”事件,AI同传被推上舆论的风口浪尖。不过,这件事并没有影响到AI同传技术的发展,就在近日,百度对外宣布了最新重大突破——一个名为“STACL”的同传AI。相比于其他AI翻译系统,STACL的最大的特点是:具备预测能力和可控延迟,甚至能够根据发言者的讲话预测到未来几秒钟的内容,因而延时更短。这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大的推动作用。
在百度AI同传之前,由于不同语言之间存在词序差异,同步性要求较高的同声传译一直是困扰机器翻译的一大难题。使用传统的机器翻译方法至少会出现一个句子的延迟,导致用户无法与说话者同步。
例如“布什总统在莫斯科与普京会晤”这句话,中文词‘会晤’出现在句末,然而在其英语译文中,动词‘meet’出现得要早得多,这种语言次序上的差异对于同传译员和可靠的机器同传系统来说都是很大的障碍。
人类译员在面临这种状况时,为降低时延提升翻译质量,往往会对演讲内容进行合理预测。百度开发人员从人类译员身上获得启示,研发了“wait-k words”模型,可以根据历史信息,直接预测翻译中目标语言词汇,并能够在翻译质量和翻译延迟之间做出很好的平衡,用户可根据实际需求设定延迟时间。还是“布什总统在莫斯科与普京会晤这句话”,据百度AI同传Demo显示,百度STACL将其翻译成英语的过程延时非常短,与原句只差几个字。中文只说到‘莫斯科’,可自动翻译的英语就已经出现了‘meet’,也就是汉语句末的‘会晤’。
这个‘meet’的出现,是STACL根据前半句语境自行设定出来的,也就是说,百度同传不需要再和传统机器翻译一样,必须等到一句话说完再进行翻译,它可以通过大量具有相似句子结构的训练数据训练,以进行合理的预测。
STACL在延迟与质量的权衡方面同样也很灵活,用户可以任意指定延迟要求(如,一字延迟或五字延迟)。在英语和西语等密切相关的语言之间,延迟可以设置得更短,因为即使是逐字翻译,效果也不错。然而,对于差异很大(如汉语和英语)以及语序不同的语言(如英语和德语),则需要更长的延迟来应对语序差异。
但是,百度AI同传也有它的缺陷。比如,百度AI可能会从前半句话里预测出会面顺利进行,而事实可能是会面并不顺利,在这种情况下,翻译就很容易出现失误,而AI目前还并没有纠错的能力。另一方面,百度AI同传翻译质量很容易受到短延迟的影响,据说最好的同传译员可以传达60%的源材料信息(大约3秒钟的延迟),而百度的新同传系统比传统的整句翻译少了3.4个BLEU点(BLEU指通过比较机器翻译结果和人工翻译来衡量整句翻译质量的标准评估指标),在准确率上仍然有一定的距离。
百度翻译技术负责人也表示,同传的目的并不在于取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛,也希望世界各地的人在AI的助力下早日实现“无障碍”交流。
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sina.com 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcw*.c*m
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号