谷歌推出自己的翻译系统:如何使用人工智能技术提高翻译质量

对于机器翻译,一种语言中可用的文本材料越多,人工智能模型训练的翻译效果越好。然而,并非所有语言都有可用于培训的富文本材料。这样,如何用很少的数据来培养更好的翻译人员就成为机器翻译领域需要解决的问题之一。最近,谷歌在其博客上推出了该公司最新的创新翻译技术,改善了谷歌翻译的用户体验。目前,Google Translate可支持108种语言,平均每天翻译1500亿字。Google Translate首次出现于2006年。在过去的13年里,翻译水平有了很大的飞跃。谷歌表示,其翻译突破并非由单一技术推动,而是在一系列技术组合上的突破,如低资源语言、高资源语言、整体质量和推理速度。2019年5月至2020年5月,根据人工评估和Bleu(基于翻译系统翻译和人工参考翻译相似性的衡量标准),谷歌翻译在所有语言中平均增长了5分以上,而在这一系列技术突破中,Google首次提到的混合模型和数据挖掘设备是指由变压器编码器和递归神经网络(RNN)解码器组成的模型。在机器翻译中,编码者通常将单词和短语编码成内部表示,由解码器生成所需的语言文本。谷歌研究人员在2017年表示,他们首次提出翻译质量的提高主要取决于编码器。谷歌团队表示,这可能是因为RNN和transformer都是为处理有序数据序列而设计的,但transformer不需要按顺序处理序列。换言之,如果所讨论的数据是自然语言,transformer在处理句子结尾之前不需要处理句子的开头,但是,RNN解码器在推理时间上仍然比transformer中的解码器“快得多”。谷歌翻译团队意识到了这一点,因此在将RNN解码器与transformer编码器耦合之前,它优化了RNN解码器,以创建一个混合模型,该模型比以前使用的RNN神经机器翻译模型具有低延迟、更好的质量和稳定性。除了新颖的混合模型架构之外,谷歌还升级了爬虫工具,它可以从数百万个样本翻译中收集编译训练数据。升级后,谷歌嵌入了14个大型语言对,而不是简单地基于字典数据。换句话说,它使用实向量来表示单词和短语,并且更注重准确性(检索到的数据的相关数据部分),而不是检索(实际检索到的相关数据总量)。在输出效果方面,谷歌表示,这使数据挖掘设备提取的句子数平均增加了29%,“有噪音”的数据和迁移学习,提高谷歌翻译性能的另一项技术突破来自于更好地处理训练数据中的“噪音”。“噪声”是指噪声数据,其中包含大量无法正确理解或解释的信息数据,这将损害语料库资源丰富的语言翻译。因此,谷歌翻译团队部署了一个系统,该系统使用经过训练的模型为翻译示例分配分数,然后过滤掉“纯”数据。事实上,这些模型首先基于所有数据进行训练,然后逐渐基于更小更纯净的数据子集。这种方法被称为人工智能研究领域的课程学习,对于机器翻译来说,它传统上依赖于源语言和目标语言中成对句子的语料库统计。对于资源较少的语言,Google在Google translate中采用了反向翻译机制,以加强并行训练数据,即语言中的每个句子都与其翻译配对。在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,源文本由神经翻译模型生成。因此,Google Translate充分利用更丰富的单语文本数据来训练模型,Google表示这对提高翻译的流畅性特别有帮助。此外,Google翻译团队还构建了M4模型。M4模型由团队于2019年提出。该模型用100多种语言训练了250亿对句子,提高了30多种低资源语言的翻译质量。该模型还证明了迁移学习技术可以应用于机器翻译过程。这也意味着收集高资源语言,包括法语、德语和西班牙语,这些语言有数十亿个并行示例。经过培训,他们可以用来翻译约鲁巴语、信德省和夏威夷语等低资源语言,这些语言只有数万个例子。谷歌表示,自2010年以来,翻译质量逐年提高,但机器翻译绝不是翻译问题的“终结者”。谷歌承认,即使是增强的模式也容易出错,包括混合一种语言的不同方言,产生过多的直译,以及在特定主题上表现不佳,无论是非正式的还是口头的,谷歌都试图以不同的方式解决上述问题。该公司发布了一项招募志愿者的计划,通过检查翻译的单词和短语是否正确,帮助提高低资源语言的翻译性能。今年2月,谷歌翻译在与新兴的机器学习技术相结合后取得了进展。他们提供了仅7500万人使用的五种语言的翻译,如基尼亚卢旺达语、奥迪亚语、鞑靼语、土库曼语和维吾尔语。谷歌并不是唯一一家追求真正通用翻译的公司。2018年8月,Facebook发布了一个人工智能模型,该模型将逐字翻译、语言模型和反向翻译相结合,在语言配对方面表现良好。最近,麻省理工学院计算机科学和人工智能实验室的研究人员提出了一种无监督模型,即可以从没有明确标记或分类的测试数据中学习的模型。该模型可以在两种语言之间翻译文本,而无需在两种语言之间直接翻译

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据