第31卷总第78期 2 0 1 0年6月 西北民族大学学报(自然科学版) VD1.31.No.2 Journal of Northwest University for Nationalities(Natural Science) June,2010 藏语语音合成中文本分析的若干问题研究 高 璐,陈 琪,李永宏,于洪志 (西北民族大学中国民族语言文字信息技术重点实验室,甘肃兰州730030) [摘要]文本分析是文语转换系统的前端,是制约语音合成自然度的一个重要因素,文章在考察汉语文本分析方 案的基础上,分析了藏语的特点,提出了一套适合于藏语语音合成的文本分析模块的实现方案.文中采用最大匹配法和 分词词库相结合的方法实现文本的自动分词,建立一套层次化的规则体系对文本进行规范化的处理,字音转换则通过 SAMPA-ST的藏语机读音标系统来实现,本研究的完成为藏语的语音合成打下了良好的基础. [关键词】文本分析;自动分词;字音转换;规范;藏语;语音合成 [中图分类号】TP319 [文献标识码]A [文章编号】1009—2102(2010 ̄02—0027—06 0弓l言 语音合成技术是将计算机自己产生的或外部输入的文字信息,按语音处理规则转换成语音信号输 出,是当今世界强国竞相研究的热门技术之一.它涉及到语言学、语音学和语音信号的数字编码处理技 术,要合成出高清晰度、高自然度的符合具体语言环境的语流.一个完整的语音合成系统的实现由文 本分析、韵律控制以及语音合成三个模块组成(如图1所示),文本分析(Text Analysis) ̄是文语转换系 统(TTS)的前端,它的主要内容是对输入的文本进行分析理解,给后端语音合成提供必要的信息.文本 分析给出详尽的语言学或语音学信息,从而使得合成器合成的语音有更多的可调节的余地.文本分析 是制约着语音合成自然度的一个重要因素,因此文本分析的研究应该受到重视. 在国内,汉语语音合成中已经发展的相当成熟,其中文本分析的研究对于合成自然度的提高功不可 没.《汉语文语转换系统中文本处理方法的研究》(1996)¨lJ对文本处理做出了初步的研究.《中文语音 合成系统中的文本标准化方法》(2003)[ ]提出了一种层次化的、基于外部规则的标准化方法.《中文语 音合成中的文本正则化研究》(2008) 】提出了对非汉字字符串转化为汉字串正则化模型,并对歧义进 行了相关处理.而对于藏语文语转换的研究者常常忽略文本分析模块的研究,因此,藏语语音合成技术 的研究依旧处于较为初级的阶段。 本文针对藏语语音合成的研究现状对于藏语文语转换中的文本分析的若干问题进行了阐述,并给 出了相关算法以及支持库的建设,为藏语语音合成技术的研究提供依据并打下坚实的基础. 1文本分析的任务 文本分析本身包含丰富的内容,我们可以把它划为若干独立的模块(如图2所示),用不同的算法解 决每个子模块中的问题,并可以把新的方法添加到系统中来,灵活地设计各个模块的算法. [收稿日期】2010一O4—20 [基金项目】国家自然科学基金(the Natiohal Natara[Sciermd Foundation of China under Grant 60773052) [作者简介]高璐(1985一),女,河南商丘人,博士研究生,主要从事语音信息处理方面的研究. 一27— 图1文语转换关系结构示意图 图2文本分析的模块图【4】 从图2中可以看出文本分析一般分为五个模块: 1)文档结构分析:对输入文本的结构进行划分,确定句子和段落的边界;对于输入文本是带标记的 格式(如:SSML语音标记),该模块也负担着对标记的解释工作. 2)文本规范化:对文本中的数字、标点等特殊符号进行转化,使它们成为标准的书写形式,才能正 确地确定读音; 3)语法分析:对文本进行语法分析,确定单词、短语以及句子的构成,对于后面韵律分析以及字音 转换提供基础; 4)韵律分析:根据语法分析的结果以及其他相关信息确定句子的韵律结构; 5)字音转换:确定每个字符的读音. 显然,文本分析的这些模块也不是一成不变的,我们可以根据具体的需求进行适当的修改 引.本文 将根据藏语的特性对其进行适当的修正,制定一套适合于藏语语音合成的文本分析规范. 1.1文本规范化处理 藏语文字本身是一种符号文字,除藏字外,还有一些常用的非藏字符号,这些符号有的需要在发音 时是以一个或几个藏字来表示的,而有的却对发音没有任何贡献.文本标准化则需要对这些非藏字符 号进行处理,确定其正确读法,并给出对应的藏字.一般包括英文缩略词、简写词、数字、符号等.该模 块是文本分析过程中重要的一个处理环节,其处理效果直接影响着文本的语音信息的正确性.具体举 例如下表. 衰1文本规范举例表 1.1.1缩略词 随着信息时代的发展,与计算机以及信息化处理相关的英文缩略词也常常出现在藏文文本中,例 如:kg、VCD、USA等,因此对于任意文本的藏语语音合成来说,缩略词的处理也是较为重要的. 1.1.2数字 数字的规范化是文本规范化处理的又一内容,数字在文本中有不同的读法,不同的意义,不同的写 法,不同的规范结果是由数字的意义和人们说话的习惯而定的. 一般来说,数字的规范化包括电话号码、日期、时间、金钱货币以及其他的数字(小数、机器型号、IP 一28— 地址等). 1.2韵律分析 对于一个任意文本的藏语语音合成系统来说,为了提高合成语音的自然度,需要从文本中提取更多 的与韵律相关的信息,建立韵律结构的分析模型. 在文本分析模块的韵律分析采用统计的方法,从一定量的标注语料中计算得到预测模型.本文中 的韵律分析主要是指停顿的处理以及韵律层级的确定. 在词与词之间、句子之间、段落之间以及遇到某些特殊符号时适当地插入停顿,可以提高合成语音 输出的自然度和可理解性L5 J. 1.3 自动分词 语法分析是文本分析模块中较为重要的一个子模块,是理解文本的基础.我们知道英语经过文本 规范和断句以后的输出的就是单词序列,可以进行相关的词性标注等一系列的工作,而藏文本身有着其 特殊性,每个藏文词条都是紧密联系在一起,没有边界的指示符号,因此,藏文分词就成为了语法分析中 最为重要的一部分工作. 自动分词的实现为藏语合成模块打下了良好的基础. 1.4字音转换 字音转换常被称作Grapheme~Phoneme Coversion,指将表义的文本输入形式转化为表音的文本输 入形式【4].一般来说,汉语普通话进行字音转换时采用汉语拼音方案,而藏语则无法使用该方案.早 期,藏语语音合成的字音转换模块通过藏文的拉丁文转写来进行实现,我们知道藏文是一种线形文字, 可以通过使用一套字母组合来表示藏文的书写,但这种方法仅仅是对藏文书写形式上对其进行转换,而 并未真正从读音上实现转换. SAMPA-ST实现了真正的藏语语音合成的字音转换.SAMPA-ST标注系统是建立在SAMPA基础 上的一套可机读的藏语音段标注系统,本文在分析了藏语声学特征基础上,设计了一套适合于藏语拉萨 话的机读音标规则,用于实现藏语的字音转换. 2算法实现 文本分析的过程实际上是一个不断应用各种知识、方法对文本进行逐步细化、分析以及判定的过 程,每个子模块都有其相应的实现方法以及支持库. 2.1文本规范 文本规范化处理是指对输入的藏文文本进行分析,把输入文本的数字、符号等非藏文字符转化为规 范的文本.我们将文本的规范分为缩略词规范、特殊符号规范以及数字的规范.其中数字的规范最为 复杂,出现较多的歧义现象. 2.1.1缩略词 缩略词的规范化处理通过建立缩略词表来实现,其具体步骤如下[引: 1)对每个句子进行分割,切分成若干字符块:藏文文本块、标点符号块、数字块等,称之为token. 2)对每一个token查找缩略词表,若在表中,转iii’否则转iv. 3)通过上下文,确定对应的规范化形式,转v. 4)若该字符块只含有大写字母,将展开为独立的字母串以便按照字母发音. 5)处理下一token. 2.1.2特殊符号 藏文的输入文本中的特殊符号,主要是指标点符号以及其他符号,标点符号的规范化通过建立文本 替换规则来完成这个任务.一般来说标点符号不发音. 规则1.单垂符转换成英文字母“a”,双垂符转换成字母…b’,添加停顿标志,不发音. 规则2.其余特殊标点符号转换为“*”形式,不发音. 一29— 对于其他特殊符号建立相应的符号对照表,通过查找符号对照表将符号转换为藏文文本. 表2缩略词表(部分) 2.1.3数字符号 数字符号的规范化,需要进行消歧处理.原因在于数字的规范化与环境以及特殊符号紧密相连,例 如“010”,可以按照区号读作“哥气 訇1 司1‘冈 币 (零幺零)”,也可以读作“旮1 日1 自日1 两(洞幺洞)”;数 字“2009”在不同的环境下读音也不同,如果是“2009—07—02”那么2009读作“司1 冈气 ’冈气 (二零零九)”,若“2009¥”,就读作“弓剁 曾< 司 (两千零九)”等.该部分的算法通过建立属性以及相 应的规则来实现,同时搜索与之相关的词条信息. 算法过程中按照缩略语的方法将句子进行分块处理,包括数字块(S)、特殊符号块(F)、藏文块(T)、 标点符号块(D)、缩略语(Y),也可以称之为节点,建立规则,使输入的文本成为一个节点序列,节点序列在规则 的匹配下逐一处理,最终形成一棵树.本文对每个节点建立相应的属性,包括藏文文本、无符号整数、比值、分 数、小数、时间、温度等,属性可以有效的保留上下文的信息,即前后节点的信息,因此,对于消歧起到了很大的 意义和作用.同时需要建立百分数规则、气温规则、小数规则、数字区间规则、负数规则等[引. 我们以气温规则为例说明规则产生的基本过程,如图3所示,图中实框为原始节点的属性,虚框为 产生的规则,整个规则体系是层次性的,最终的气温规则由左边的规则数字区间规则、负数规则以及无 符号整数产生.由此,合成系统中一句完整的输入文本的数字符号的规范化处理就是在这些规则中产 生的,同时对于不同的规则,对于不同层次的规则设置相应的权值,由原始属性产生的规则权值较大,应 首先得到匹配,而由中间规则再产生的规则权值较小. 图3特殊符号规范化处理的层次化规则体系{部分) 一3O一 通过例子进行说明整个数字规范化过程: “ ’ 5I’ ’ 气 4—15℃(今天气温4—15℃)”可以得到节点序列:T1( 。 5I ’蓦气’磊气 )、s1(4)、F1(一)、s2(15)、F2(℃),其分析树如下图4. 经过规则匹配后对这些符号进行藏文文本的书写转换,其中纯数字串通过规则的替换实现,其规则如下: 规则1.单个的阿拉伯数字和藏文数字符号转换成相应的藏文文本读法,同时按一个韵律词处理; 规则2.多位数的数字串转换成汉语普通话的“几十几”、“几百几十几”等的藏文文本形式,同时按 一个韵律词处理; 对于其他符号块由对照表的文本书写形式产生. 2.2 自动分词 藏文自动分词的研究既是藏汉机器翻译的基础又是藏文信息化处理的核心,一些学者已经对藏文 分词进行了研究.《藏文自动分词系统的设计与实现》[ 】一文依据藏文的格助词和接续特征实现藏文的 自动分词,本文通过建立分词词库,对藏文词条采用最大匹配法进行分词,实现藏文文本的自动分词. 2.2.1分词词库的建立 2.2.1.1基础词库在基础词汇库的建设中,我们录入了包括《藏汉大辞典>、<安多口语辞典>、<拉萨 口语字典》、《格西曲扎藏文辞典》、《新编藏文字典》、《藏文同音字典》、《藏汉词典>、《藏文辞典》、《佛学词 典=》、《藏语动词词典》以及《藏语文课本(小学12册、初中6册、高中6册)》在内的多部藏文字(词)典和 24册藏语文课本,《藏汉大字典》共收录了约5万词汇,其他收录了8余万词汇,总达13万余条,经过查 重处理后得到9万余条藏语词条,涵盖了几乎所有的藏语书面语和绝大部分口语. 基础词库包括单音节词库、双音节词库、三音节词库、四音节词库以及多音节词库.为了提高分词 的检索速度,对基础词库建立索引结构【7J. 2.1.1.2其他词库格助词库:藏语句子的表达主要借助格助词来完成,格助词的种类和所添接位置 的正确与否直接关乎句子所表达的意思.书面藏文格助词有82个(包括变体),根据是否受后置字约束 分为规则格助词和不规则格助词两大类.规则格助词主要分7类共63个,不规则格助词主要分6类共 19个.对这些格助词,我们根据句节接续关系和字接续特征建立了格助词知识库. 成语库:对马进武先生的《藏语成语辞典》 】中1800余条成语进行录入,建立成语库.动词词库:对 李永昌先生的《藏语动词词典》Is]中2730余条动词进行录入,其中主条1630条,分条(包括动词的过去、 未来、现在、命令三时一式及异体字)1100余条.分词词库的建立是动态变化的,对于分词中的未登陆 词实时处理,不断的对分词词库进行补充和完善. 2.2.2分词方法 一般来说分词的常用方法包括机械分词法、基于规则的分词法、基于统计的分词法等,本系统采用 了最大匹配法. 其基本思想是这样的,假设自动分词词典(或词库)中的最长词条是i个字,则取被处理材料当前字 符串序列中的前i个字作为匹配字段,查找词典 若词典中存在这样的一个i字词,则匹配成功,匹配字 段被作为一个词切分出来;如果在词典中找不到这样一个i字词则匹配失败,匹配字段去掉最后一个 字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为 止 引.如果未能匹配将作为未登陆词记录,并进行人工的校正,同时更新词库. 该方法的出发点是在词典中按词频的大小排列词条,以求缩短对分词词典的搜索时间,达到最佳效 果,从而降低分词的时间复杂度,以加快分词速度.实际上,这是对分词词典预先进行的一种加工,不是 纯粹意义上的一种分词方法. 3字音转换 字音转换是语音合成中较为重要的一个模块,本文中对于藏语语音合成中字音转换的方案在2.4 小节中进行了简单介绍.我们知道藏文是由单音节构成,那么无论是对于藏文篇章、段落、句子还是词 一31— 汇的SAMPA-ST标注都是通过对单音节的转换而实现的.SAMPA—ST自动标注系统的核心思想是通 过对单音节从文字上进行声韵母的分离,并分别对声韵母分别进行SAMPA-ST的转换,最后将其组合, 并加之声调[ .程序实现过程中需要字丁分解表、声母的SAMPA表以及韵母和声调的SAMPA表作 为支持库[・ ,其单音节转换流程如图5所示. 溅诺摭萨谲举潇诲 定使旗字r 稿嬲宇i I旗拿j’I l翁匀畦譬{l露精加搴 巍窀势解淡 凳卷事…_I I诧素 匝巫受 l l 壁巫亟 图4。 ’ ’爵l’珂l 司’ 气’矗气’ ’ ’ 日 q q ”分析树 图5 藏语拉萨话SAMAPA-ST自动标注系统流ll[1t 图中为了程序实现以及文字叙述的方便引入基字丁以及无音字丁的概念. 藏文单音节SAMPA:声母SAMPA+韵母SAMPA+声调SAMPA 对于篇章、段落、句子的SAMPA转化将在单音节的基础上进行组合实现.但此时,连续变调成为 我们考虑的首要问题.拉萨话的连续变调规则研究的比较多,也比较固定.《藏语研究文论》[10]一书中 对拉萨话双音节变调情况做出详细阐述,若以六字调系统计算,双音节应有36种组合形式,但实际只有 六种,即55+54、55+55、55+52、11十54、11十24、11+52.对于四字调系统来说双音节变调有55+55、 55+52、11+35、l1+52四种,但对于另外两大方言来说较为复杂,康方言的连续变调研究的较少,很多 调值变化并不稳定,需要进一步的做深入调查和分析;安多方言牧区话和农区话差别比较大,传统说法 认为安多方言没有区别意义的声调系统,但安多方言习惯调的内部规律,现在还不是很清楚,这些都需 要做深入的调查研究.因此,实现藏语语音合成中的康方言以及安多方言的变调问题还有待于进一步 的研究. 4小结 目前,藏语语音合成系统的开发已经起步,而决定合成自然度的好坏因素除了韵律控制模块以外, 文本分析也起着重要的作用,文本分析模块是藏语语音合成的一项基础性工作.本文对藏文的文本分 析模块进行了深入的研究,在考察了相关汉语研究成果的基础上,对藏语合成在自动分词、文本规范、字 音转换等方面提出了适合于藏语语音合成的方案,为藏语语音合成的文本分析提供了一套规范.但本 文也有不足之处,在字音转换的多音字处3NI. ̄I及三大方言的连续变调等方面还存在问题有待于改进. 文本分析的其他模块处理比较简单,(例如:停顿的处理)篇幅所限,在此不再详述. 参考文献: [1]陈沁瑜.汉语文语转换系统中文本处理方法的研究[C].汉语综合资料库及信息处理系统评价方法论文集,1996. (下转第75页) 一32— 该患者有剖宫产手术史,估计出血原因如下:①胚胎组织着床位于子宫下段瘢痕处,此处存在子宫 内膜缺陷,绒毛易侵蚀达肌层.②切口部位的内膜供血不足,局部内膜对雌、孕激素的反应与宫腔其他 部位内膜不一致,导致异常子宫出血.③清官时子宫下段收缩差,瘢痕处易发生不完全破裂,导致血窦 持续开放.④瘢痕子宫对宫缩剂不敏感,子宫收缩不协调,导致持续出血.本病例术前评价不足,忽略 了剖宫产瘢痕部位妊娠的可能.对于药物及一般治疗无效的活动性子宫出血,亦可选择介入即选择性 子宫动脉栓塞术,成髂内动脉结扎,但前者术前准备时间不充且费用昂贵,后者损伤较大,均未选择.应 用宫腔镜电凝止血有效原因如下:①官腔镜下前、后壁子宫下段部位清晰可见局灶开放性血管出血,滚 珠电凝出血部位,迅速有效止血.②电凝刺激后子宫下段局部收缩良好,出血减少.这既达到了促进子 宫收缩,止血的效果,又避免了子宫切除的不良后果. 参考文献: [1]杨素琴,肖素梅,邹一梅,苏迎春.电视官腔镜下清宫在稽留流产中的应用[S].中国第十四界内镜医学学术大会, 2005,6:3370O0. (上接第32页) [2]陈志刚,胡国平,王熙法.中文语音合成系统中的文本标准化方法【J].中文信息学报.2003,17(4):45—51. [3]贾玉祥,黄德智,刘武,余士汶.中文语音合成中的文本正则化研究D].中午信息学报,2008,22(5):45—50. [4]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003. [5]魏茂盛。章森.汉语语音合成中文本处理的几个同题[J].山东建材学院学报,1999,13(1):73—75. [6]陈玉忠,李保利,余士汶.藏文自动分词系统的设计与实现【J].中文信息学报。2003. 【7]姚徐,郭淑妮,于洪志.藏语分词词典的建立与设计研究[c].第二届全国少数民族青年自然语言处理学术研讨会论 文集,2007. [8]马进武.藏语成语辞典[M].西宁:青海民族出版社,1999. [9]李永昌.藏语动词词典[M].北京:民族出版社,2005. [10]韩纪庆,张磊,郑轶然.语言信号处理[M].北京:清华大学出版社,2004. [11]李永宏,孔江平,于洪志,藏语文一音自动规则转换及其实现【J].清华大学学报(自然科学版),2008,4. [12]陈嘉猷,鲍怀翘,郑玉玲.三个少数民族语音声学参数数据库(光盘版)介绍[J]. [13]胡坦,藏语研究文论【M].北京:中国藏学出版社,2002. 一75—