免费论文查重: 大雅 万方 维普 turnitin paperpass

阐释一种多音字计算机自动注音方法

最后更新时间:2024-03-07 作者:用户投稿原创标记本站原创 点赞:11553 浏览:46987
论文导读:歧研究.Proceedingsofthe20thInternationalConferenceonComputerProcessingofOrientalLanguages,2003.郑敏,蔡莲红.一种新的基于规则的多音字自动注音策略.第二届全国学生计算语言学研讨会论文集,2004.作者单位湖北经济学院湖北省武汉市430205原文出自:中报教育网论文中心 www.zbjy.cn
摘 要:本文提出一种用于计算机语音合成系统中的基于词库设计和句子“局部词性相似度”的多音字自动注音策略。首先将多音字分类,建立多音字词库;对于使用率很高的少部分多音字,提出了句子“局部词性相似度”的计算策略,在语料库找到相似度最高的句子,并将其中的多音字发音作为输出结果。
【关键词】多音字 自动注音 局部词性相似度 句子相似度
1 引言
在汉语中有1000多个多音字,正确地对它们自动注音是用计算机进行自然语言处理,尤其是计算机语音合成系统的关键和难点之一。然而,多音字的发音没有统一的规则可循。目前,处理多音字注音理由主要有两类策略。一是基于机器学习的统计法(如[1]、[2]),二是基于规则体系的策略(如[3])。本文根据多音字理由本身的特点,提出一种基于词库设计和句子“局部词性相似度”的多音字自动注音策略,在实验中取得了较好的注音效果。
2 词库的建立

2.1 多音字分类

本文根据多音字字本身的使用频率来分类,比如“好、还”等,既是常用字,其各个发音又都比较常用,自然应该被认为是高频多音字;而“家、员”等,除了常用的读音“jiā、yuán”外,其它读音基本不再使用,但由于它们本身是常用字,也划归到高频多音字一类中。
高频多音字又可分为2类。有些字的每个读音使用频率都很高,如“地、好”等,其各个发音都可以组成大量词汇,本文称之为多高频字;有些字的某一个读音使用频率很高,其它读音使用频率很低,称之为单高频字。有些多音由提供海量免费论文范文的www.7ctime.com,希望对您的论文写作有帮助.字可以单独作为词来使用,如“为”等,也划归到多高频字统一处理。
低频多音字在本文中只包括多音字中的那些非常用字,如“缪、缊”等,能够组成的词汇很有限、可以枚举。

2.2 词库的建立

在上述分类的基础上,对各类多音字分别采取不同的方式来建立词库,具体如下。
低频多音字:只需要分别枚举出各发音的所有词汇即可。判断读音时,将该字在句子中的当前词与词库中枚举的词汇进行匹配,即可确定该字的发音。
单高频字:在词库中对使用频率低的各个发音都进行词汇枚举,而使用频率高的那个发音作为默认读音。判断读音时,若在词库中找到匹配的词,则可确定发音;反之则使用高频的默认读音作为该字当前发音。
多高频字:能组成大量的词汇或没有一定的规律可循,应在词库中尽可能多地收录一些常用的、典型的词汇。
可以看出,上述三类中,主要是多高频字难以处理,故下面主要讨论此类多音字的处理策略。
3 利用句子相似度处理多高频字
本文提出利用句子相似度来进行多高频字读音的选择。对于一个多高频字X,收集一定数量的、尽可能包含X的各种用法的句子集合S={S1,S2,…,Sn}并人工注音、构建注音语料库;在判断时,计算X所在句子Y与S中每一句Si(i=1,2,…,n)的“局部词性相似度”,在S中选取与Y相似度最高的句子Sj,Sj中的字X的发音即作为Y中的字X的发音。下面详细介绍局部词性相似度的计算策略。

3.1 关键词抽取

汉语句子中任何句子的主要成分都是主语、谓语、宾语和定语、状语、补语,因此进行句子相似度计算时只将句子中的名词、代词、动词、形容词和副词以及多音字所在的词作为关键词。

3.2 局部词性相似度的计算

4 实验结果
本文的1048字的多音字词库为手工建立;对于多高频字,从网络下载了一定数量的句子并进行手工标注,形成注音语料库。使用本文的策略得到的结果如下:
从整体结果来看,本文所采用的分类处理的策略取得了较好的效果;利用句子相似度的策略处理多高频字的注音有一定成效。但由于这些字的实际用法灵活多变,有些甚至完全没有规律可循,另外制作的注音语料库的覆盖面不够大,导致多高频字的注音准确率不够高,影响了整体的结果。
5 结束语
本文采用了一种将词库设计和句子“局部词性相似度”相结合、根据多音字的实际使用情况对其分类处理的策略,将1000多个多音字分为低频、单高频和多高频三类,针对各个类别的特点采用了枚举全部词汇和计算句子“局部词性相似度”等策略,取得了较好的注音效果。其中,针对用法灵活多变的多高频字的特点,本文提出的局部词性相似度的计算策略在一定程度上解决了其读音判断理由。
参考文献
[1]张子荣,初敏.解决多音字字_音转换的一种统计学习策略[J].中文信息学报,2002.
[2]胡国平,陈志刚,王仁华.基于规则及SVM权值训练的汉语多音字自动消歧研究[C]. Proceedings of the 20th International Conference on Computer Processing of Oriental Languages,2003.
[3]郑敏,蔡莲红.一种新的基于规则的多音字自动注音策略[C].第二届全国学生计算语言学研讨会论文集,2004.
作者单位
湖北经济学院 湖北省武汉市 430205 全文地址:www.7ctime.com/jsjgclw/lw17639.html上一论文:对于任务驱动式教学在高职计算机基础课程教学中的应用