免费论文查重: 大雅 万方 维普 turnitin paperpass

基于频繁模式挖掘维吾尔文智能组词方法-如何

最后更新时间:2024-02-22 作者:用户投稿原创标记本站原创 点赞:6994 浏览:22398
论文导读:
摘要:以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。
关键词:维吾尔文本;分词;组词;语义词;频繁模式
:A
引言维吾尔文与中文不同,是一种拼音文字,词与词之间以空格隔开,这些特点上与英文类似。因此,维吾尔文中从未探索或研究过分词问题,用完全与英文类似的方法,以空格作为自然分隔符隔开文本中的词,直接获取词的集合[1]。但维吾尔文又与英文不同,在很多情况下,由多个维吾尔文词的上下关联组合来表达一个完整的语义,如果这种上下关联性被简单分词破坏,其原有的完整语义也就完全丧失。最近的相关研究结果表明,采用空格分割的简单方法获取的维吾尔文单词,不能作为基本语言单位来处理文本。因为,作为一个完整语义载体的若干个相邻单词被分开,其原有的语义被淡化甚至完全被丧失,这样获取的单词就难以在文本标引中发挥词的作用,因而基于词特征的文本处理效果也总是很不理想[2]。因此,为了能够从文本中获取结构稳定、语义完整而独立的维吾尔文词的组合,研究一种有效的组词方法,是目前维吾尔文文本处理中必须解决的关键问题。一个维吾尔文文本,从表面上可以被看成一个已经分过词的单词序列,但从一个完整的语义上观察,其中部分单词可以充当完整语义载体,这种词就用空格分割的方法可以直接获取,也就是分词获取,而作为完整语义载体的上下关联单词的稳定组合却需要采用特殊方法来获取,也就是组词问题。从数据挖掘摘自:论文查重www.7ctime.com
的角度上看,这种相邻单词的稳定组合是一种关联模式[3],在一个或内容相近的多个文本中会多次出现,是一种频繁模式[4]。因此,可以将维吾尔文组词问题看成数据挖掘中的频繁模式挖掘问题来解决,其关键是设计一种适合于维吾尔文的频繁模式挖掘算法。