网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏
汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为1& 6,融合藏语单
语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别
提高了 3.4和4.7。关键词:藏语;语言模型;机器翻译;融合;神经网络中图分类号:TP391 文献标识码:A
Tibetan-Chinese Machine Translation Based on Tibetan LanguageModel Enhanced TransformerCIZHEN Jiacuo1,2, SANGJIE Duanzhu1,2, SUN Maosong3 , SE Chajia1,2, ZHOU Maoxian1,2(1. MOE Key Laboratory of Tibetan Information Processing♦ Qinghai Normal University,Xining, Qinghai 810008,China;2. Provincial Key Laboratory of Tibetan Intelligent Information Processing andMachine Translation, Xining, Qinghai 810008, China;3. Department of Computer Science» Tsinghua University, Beijing 100084, China)Abstract: To better utilize the monolingual Tibetan texts in Tibetan-Chinese neural machine translation( NMT), we propose to pre-train a Tibetan neural language model and then integrate it into a Transformer-based Tibetan-Chinese
NMT model. Experiments indicate our approach can boost the Tibetan-Chinese results from 21. 1 to 24. 5, and the
Chinese-Tibetan form 18. 6 to 23. 3 in terms of BLEU score.Keywords: Tibetan;language model;machine translation;fusion;neural net料学习语言的基本特性,由于统计机器翻译需要大
o引言早期的语言模型和机器翻译方法受限于人工构
规模的标注数据会消耗大量的人力物力。目前,基
于神经网络的机器翻译能够较好地解决规则和统计 方法存在的问题。与传统方法相比,以Transform-
建的规则,由于语言的复杂性和多样性,基于规则的 方法需要构建规模庞大的规则库才能刻画语言的特
er为代表的神经网络方法对数据更加依赖,因为其
巨大的网络参数空间需要用大规模数据进行参数估
性,但规则库的维护和复杂性又依赖于人类专家的 计,从而导致翻译性能并不理想。为了解决低资源下机器翻译中存在的问题,
经验和知识,无法对语言现象进行完备的描述。为 解决规则机器翻译的缺陷和不足,基于统计的机器 翻译研究开始涌现,其方法是通过大规模的标注语
收稿日期:2019-06-18 定稿日期:2019-08-012016年Zoph Barret等提出了一种迁移学习方法,
其主要思想是先训练一个完备的机器翻译系统模
基金项目:国家自然科学基金(61063033,61662061);国家重点研发计划(2017YFB1402200)62中文信息学报2019 年型,然后将这个模型的参数传递给低资源的机器 翻译模型.从而达到低资源模型参数的初始化和
1. 2 Transformer 框架2014年Ilya Sutskever等为了解决神经网络对
序列任务不适用的问题,提出了一种端到端的神经
约束训练,这样可以显著提高低资源条件下机器 翻译的性能⑷。2017年Robert Ostling等利用向
量间的依赖关系和单词对齐来解决翻译中的排序 问题,并且证明了 NMT也可用于低资源场景阂。
网络机器翻译构架页。这种构架用一个多层的
LSTM网络将输入序列映射(编码)为一个固定大
小维度的向量,再用另外一个多层的LSTM网络来 解码该向量作为输出序列⑸。同年,BahdanauD等 使用固定长度向量提高编码器一解码器架构性能,
2018年Ebtesam H Almansor等提出了递归神经
网络和卷积神经网络相融合的机器翻译模型,用 来解决低资源下阿拉伯语到英语的机器翻译问
题⑷。2018年Tao Feng等为了解决低资源下机 器翻译的性能问题,提出了两种解决方法,第一种
并且为了打破这种架构的瓶颈,使用词表的自动对
齐来扩展模型的性能⑷。直到2017年,Google的
方法采用解码器权重共享来增强低资源NMT系 统的目标语言模型,第二种方法应用跨语言嵌入
Ashish Vaswani等提岀了一种基于自注意力机制
(self-attention)的模型构架,这种构架可以建模各
种自然语言处理问题,并在多项任务中取得了最好 成绩。相较于利用RNN或者CNN作为编码器一
和源语言表示空间共享来加强低资源NMT编 码器⑷。解码器(encoder-decoder)的传统的神经机器翻译,
谷歌提出的基于attention的Transformer模型抛
1总体框架和相关理论基于神经网络构架的藏汉机器翻译研究刚刚起
弃了传统的构架,并没有用任何CNN或者RNN的
结构。该模型可以完全地进行并行运算,在提升翻
译性能的同时训练速度非常快。Transformer模型 构架如图2所示。步,特别是对低资源条件下的藏汉神经网络机器翻 译相关研究很少。本文首先利用Transformer作为
基线系统搭建藏汉神经网络机器翻译系统,然后在
编码器中将源语言置空,也就是说编码器只训练单
语的语言模型,然后利用现有资源对解码器中两个 语言(藏汉)之间的对应关系进行训练,通过加入不
同规模的语料,对比和分析其实验结果,期望得到一 个低资源条件下高效的藏汉神经网络机器翻译
系统。1.1 总体框架以Transformer为主体框架,首先在编码器端
训练藏语单语语言模型,将其作为输入;然后将藏语 单语语言信息与编码器端的预输出进行加权处理,
使源语言与目标语言产生映射关系,最终输出目标
语言,如图1所示。LM -----— Transformer -----------------— output
------------ ----------------------------- LMt图1总体框架图1中,LM表示编码器端训练的藏语单语语
从图2可以看出,编码器由多个相同的层堆叠 在一起,每一层又有两个支层,第一个支层是一个多 头的自注意力机制,第二个支层是一个简单的全连
言模型,㊉表示归一化处理,LMt表示在解码器端 加入的藏语语言信息。12期慈祯嘉措等:融合单语语言模型的藏汉机器翻译方法研究63接前馈网络,解码器和编码器的结构相似,但多了一
的映射完成。多头注意力对Q、K和V进行人次不
个多头注意力机制,如式(1)所示。同的投射,每次投射的维度都是必和d”,然后经过 缩放点积运算,再将人次计算的结果通过线性映射,
sub_layer_output =LayerNorm(j? + (SubLayer( j:) ) )
(1)获得最终的多头注意力网络输出⑺,如图4所示。因为在编码器和解码器中都没有递归和卷积运
算‘Transformer无法自然地利用序列中的位置信 息,但是对于机器翻译任务,序列中的各个元素的位
置是非常重要的。为解决这个问题,Transformer 使用了一个称为位置编码(positional encoding)的
方法将每个元素的位置信息显式地嵌入到网络中,
即编码器的输入为位置编码向量加上(㊉)输入序列 的嵌入式表示。位置编码的学习通过三角函数完 成,如式(2)所示。V
K
QP ( pos,2i )= sin(pos/10000\"7%d“) (2)图4多头注意力网络示意图其中,pos代表序列中元素的位置,2i表示位置 向量的维度;dmoaj表示自注意力网络的输出维度。
1.3单语语言模型融合策略本文使用Transformer构架来对系统进行实 现,在神经网络机器翻译中,总共有三个参数影响其 翻译性能,如式(4)所示。因为三角函数具有周期性,对于固定长度的偏差
P(pos+Q可以表示为P)的线性函数,使模型能够 很容易地学习序列中各个元素的相对位置关系 信息翊。P(y 丨丄,》<:,0) = ,C, ,S;) (4)图3与式(3)表示Transformer模型中矩阵的
式(4)中,y表示i时刻生成的目标语言,j-表
相关计算,Q表示查询矩阵,K和V表示键值对矩
示源语言的输入,><,表示i时刻之间已生成的所 有目标语言,&表示模型的参数,C,表示i时刻上下 文的信息,S,表示隐藏层:时刻的状态。在机器翻 译过程中,翻译质量由以下两个因素决定:一是编
阵;-Jdk为softmax的缩放系数。(
矩阵相乘(softmax ]码器所训练的语言模型;二是解码器所学习到的对
r遮蔽、1 (解码器)L♦应关系,这种对应关系需要大规模的语料作为支撑 才能完全学到源语言与目标语言之间的语言关系,
而在藏汉(汉藏)机器翻译中,平行语源较少,无法完
(缩放皿)(矩阵相乘)全学习到藏语一汉语之间的映射关系,那么只能提
1高编码器所训练的语言模型的质量来提高翻译性
能。在神经网络机器翻译中⑷:VP(jc | y)= p(LM)・ />(decoder)
Q K
(5)图3缩放点积注意力的计算示意图'如式(5)所示,翻译的性能是由编码器和解码器
共同决定的(乘积的关系),在低资源的藏汉神经网
Attention(Q,K,V) = softmax(3)络机器翻译中,解码器的性能无法再次得到提升(因 为需要大规模的平行语料),那么只能通过提高编码 器的性能来提升机器翻译的性能,而在神经网络模 型架构中,整个训练过程是一个完整体,很难被打断
考虑到在dk较大时,q,和k,的积会将softmax 函数推向梯度极小的区域,从而影响有效的反向传
播,作为softmax输入的点积被缩小a/孑*倍。在机 器翻译中.Transformer将编码器的隐状态视为一
或者是分割,嵌入语言模型的难度也很大,在编码端
把源语言置空,只训练单语的语言模型,从而达到与 嵌入单语语言模型相同的效果。组键(Key)值(Value)对的集合,而在解码器中t
时刻之前生成的输出序列被压缩为查询(Query)矩 阵,当前t时刻解码器的输出通过查询与键值集合
本文将藏语单语训练的语言模型作为编码器一 端,本质上是删除编码端上下文向量C,的信息.神
64中文信息学报2019 年经网络必须完全依赖于前一个网络的输出来预测下
一个网络的输出,这就相当于上下文信息被删除。 2实验分析本文将这种设置看作是多任务学习,当源语言已知
时,这个任务就是藏汉机器翻译,当源语言未知时, 2.1数据的来源(准备)神经网络进行藏语单语语言建模。在训练过程中,
本文以1 ; 1的比例使用对齐语料和藏语单语语料 本文总共收集400万句藏语单语语料,其中单 进行训练,并随机打乱。在解码器端,本文将上一时
语语料中310万为新闻领域的语料,40万为法律领
刻Mt作为当前时刻的输入。同时,藏语单语语言 域语料,50万为其他领域的语料;收集160万句对
模型也在影响整个网络的输出,训练的翻译模型生 为藏汉双语平行语料,其中90万为新闻领域语料,
成的词和语言模型所生成的词重新加权排序,得到
40万为法律领域语料,30万为其他语料。语料的整
一个最优的输出,如图5所示。体结构如表1所示。表1语料领域分布表语料类别单语语料双语语料新闻语料/万31090法律语料/万4040其他/万5030共计/万4001602.2 实验深层融合方法(deep fusion)见式(6)与图5,在
训练过程中,只更新用于参数化输出的参数,以确保 藏语单语语言模型所学到的语言特性不会被覆盖。 在融合过程中,本文将权值和标准差进行了设置,在
图5融合单语语言模型信息训练速率上,每10K训练数据对模型进行一次模型
在每步预测每个词之前,将神经网络的解码器 BLEU值的计算,直到模型性能不再提升为止。本 文Transformer的参数设置如表2所示。的隐藏状态S,™与藏语单语语言模型5,..M进行合 表2模型参数设定并,控制器g,用于重新计算语言模刊的权重。如式(6)所示。参数名称参数选择P(y, I y« ,j)oc标签平滑率0. 1exp(yj (W“ fo (s»m ,s,tm ,%] ,c,)+ 九))(6) 优化器Lazy Adam Optimizer本文首先将藏语单语语言模型与神经网络模型
学习率2. 0的解码器进行融合,使隐藏状态串联起来(图5)。
学习率衰减类型noam然后,在计算下一个单词的输出概率时,对模型进行 学习率热启动轮数10 000微调,使用这两个模型的隐藏状态(式(6))。与一般 的神经网络机器翻译模型不同,每个网络输出的隐 长度惩罚率0. 6藏层除了神经网络本来拥有的解码器、前一时刻的 批处理类型token单词之外,还将藏语单语语言模型的隐藏状态作为 批处理大小4 200输入。其中,本文使用SJM和s,lm分别表示神经网
编码器输入的维度512络解码端和单语语言模型的隐藏状态。在训练过程
自注意力层数4中,只更新用于参数化输出的参数,以确保藏语单语 语言模型所学到的特性不会被覆盖⑼。自注意力层的隐层单元个数51212期慈祯嘉措等:融合单语语言模型的藏汉机器翻译方法研究65续表参数名称参数选择行训练,并把藏语单语语言模型与神经网络模型的
解码器进行融合,将它们的隐藏状态串联起来,再计 算下一个输出的概率,对模型进行微调,实现了一个 融合单语语言模型的藏汉(汉藏)机器翻译系统.最 终的实验结果表明,单语语言模型融合策略可以有 效地提高原有藏汉(汉藏)神经网络机器翻译系统的
自注意力层多头注意力网络头数前馈网络的隐层单元个数前馈网络的dropout82 0480. 10. 1自注意力网络的dropout性能。ReLu 层的 dropout0.2参考文献各个模型的BLEU值如表3所示:表3各个模型BLEU值[1]
Zoph B, Deniz Y, Jonathan M, et al. Transfer learn
ing for low-resource neural machine translation[C]// CoRR abs/1604. 02201. 2016.模型Transformer藏一> 汉21.1汉一〉藏1& 623. 3[3]
[2] Robert Ostling,Jorg Tiedemann. Neural machine trans
Transformer+ deep fusion(融合)24.5lation for low-resource languages EC^//Proceedings of the EMNLP 2017.Ebtesam H. Almansor, Ahmed Al-Ani. A hybrid neural
machine translation technique for translating low resource languages[C]//Proceedings of the 14th Interna
2.3分析实验结果显示,基线系统藏汉机器翻译的
tional Conference, MLDM,2018.[4]
BLEU值为21. 1,汉藏机器翻译的BLEU值为
Tao Feng, Miao Li, Xiaojun Liu, et al. Improving low-
resource neural machine translation with weight sha- ringCC]//Proceedings of the CCL, 2018.18. 6,而融合藏语单语语言模型的机器翻译系统,藏
汉机器翻译的BLEU值为24. 5,汉藏机器翻译的
BULE值为23.3,比原有的基线系统BLEU值分别
提高了 3.4和4. 7。BLEU实验结果表明,基于单
[5] Ilya Sutskever,Oriol Vinyals,Quoc V Le. Sequence to
sequence learning with neural networksEC]//Proceed
ings of the NIPS, 2014.[6]
语语言模型融合的藏汉(汉藏)神经网络机器翻译系 统比原有的基线系统更加有效。Bahdanau D, Cho K, Bengio Y. Neural machine trans
lation by jointly learning to align and translate E J ]• arXiv: 1409. 0473. 2014.[7]
3总结与展望本文以目前效率最高的Transformer为基线系 统,对藏汉(汉藏)神经网络机器翻译系统进行了实
Ba J L, Kiros J R, Hinton G E, Layer normalization [J]・ arXiv; 1607. 06450・ 2016.Gu J, Hassan H, Devlin J, et al. Universal neural ma
chine translation for extremely low resource languages EC]//Proceedings of the NAACL-HLT,201 &[8]
现,首先对单语语言模型融合的机器翻译系统进行
[9] Yoshua Bengio. On integrating a language model into
neural machine translation^]. Science Direct* 2016♦ 15(1):137-148.了实现,将藏语单语训练的语言模型作为编码器一 端,以1 : 1的比例使用对齐语料和藏语单语语料进
慈祯嘉措( 1989-),博士研究生,主要研究领域 为计算语言学、藏文信息处理、机器翻译。E-mail: 543819011@qq. com
桑杰端珠(1986-),博士研究生,主要研究领域 为计算语言学、藏文信息处理、机器翻译。E-mail: sangjeedondrub@live.com66中文信息学报2019 年X孙茂松(1962—),通信作者,教授•博士生导师, 主要研究领域为自然语言理解、中文信息处理、 机器翻译等。E-mail: sms@mail. tsinghua. edu. cnCCKS 2019全国知识图谱与语义计算大会在杭州隆重召开2019年全国知识图谱与语义计算大会(CCKS 2019)于8月24日至27日在杭州召开,由中国中文信息
学会语言与知识计算专业委员会主办,浙江大学承办。本次会议主题是“知识智能”。大会吸引了来自海内
外的800多名科研学者、工业界专家和知名企业代表参加。会议回顾了知识图谱与语义计算的进展情况,探
讨了领域内的新发现、新技术和新应用,旨在让社会各界了解知识图谱与与语义计算的新方向和新趋势,以 推动我国语言与知识计算领域的进一步发展。CCKS 2019会议分为学科前沿讲习班和大会主会两个阶段。8月24日至25日,中国中文信息学会《前 沿技术讲习班MATT)第十六期在杭州宝盛水博园大酒店举行。前沿技术讲习班邀请了国内外优秀青年学
者及工业界专家,内容涵盖了知识图谱的推理、构建,自然语言的推理、关系抽取及知识图谱应用等方面,分 别从知识图谱的构建及在实际场景中的应用等角度介绍了知识图谱的最新进展和实战经验。8月26 0 ,CCKS会议主会开幕式也在杭州宝盛水博园大酒店举行,中国中文信息学会理事长方滨兴
院士致欢迎辞,语言与知识计算专业委员会主任、清华大学计算机科学与技术系李涓子教授介绍了语言与知
识计算专委会以及CCKS大会历史,大会主席清华大学朱小燕教授和大会程序委员会主席哈尔滨工业大学 秦兵教授分别介绍了大会的组织情况。浙江大学陈华钧教授主持了开幕式。主会包括特邀报告、优秀学术论文报告、知识图谱相关顶级会议回顾、知识图谱评测与竞赛及知识图谱
工业界论坛等环节。特邀报告环节邀请了海内外知名学者和工业界代表介绍了学科前沿信息及重要成果,
英国南安普顿大学(University of Southampton)的 Dame Wendy Hall 教授作 了题为\"Web Science, Al and
Future of the Internet\"的特邀报告;美国伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign) 的 Heng Ji 教授作了题为\"PaperRobot: Automated Scientific Knowledge GraphM的特邀报告;加拿 大滑铁卢大学(University of Waterloo)的李明教授作了题为“第三代聊天机器人”的特邀报告,介绍了第三 代聊天机器人架构和可行的实现方法;百度CTO王海峰博士作了题为“知识图谱与语义理解”的特邀报告,
介绍了百度知识图谱与语义理解技术及应用,并探讨了未来发展方向。CCKS是中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议,致力于促进我国语 言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交 流的平台。CCKS 2019聚集了知识表示及获取、知识推理、自然语言理解、智能问答等相关技术领域的重要
学者和研究人员,为所有与会者带来了一场学术与技术的饕饗盛宴。
因篇幅问题不能全部显示,请点此查看更多更全内容