免费论文查重: 大雅 万方 维普 turnitin paperpass

阐释网络聊天机器人在少数民族汉语教学中关键技术-

最后更新时间:2024-02-02 作者:用户投稿原创标记本站原创 点赞:10236 浏览:36693
论文导读:词技术的基本不足16-182.1.1中文分词的规范不足162.1.2中文分词的切分歧义16-172.1.3未登录词不足17-182.2中文分词的主要策略18-20第三章可扩充语料库的建立20-243.1计算机及软件工具环境203.2可扩充语料库的建立20-223.3词性词表库中的关键数据结构22-24第四章最短路径算法的改善算法24-33

4.1最短路径的分词思想

摘要:网络聊天机器人作为一款供人类生活学习的工具近年来备受关注,其技术也随着信息处理水平的提升而日渐成熟。目前活跃在网上的“小i”机器人,可以随时查询一些诸如天气情况之类的便于人们日常生活的知识,可以陪用户聊天、学习语言,供用户娱乐休闲。介于网络聊天机器人的聊天、学习的功能,本论文设计并探讨其在少数民族地区汉语教学上的运用系统,并围绕着网络聊天机器人的关键技术——自然语言理解进行深入探讨。本论文对网络聊天机器人的技术探讨是以汉语分词开始的。由于汉语本身的语言特点,词与词之间不能用空格之类的显性标志分开,所以汉语分词就成了汉语自然语言处理的“瓶颈”。解决好中文分词决定着网络聊天机器人系统的性能好坏。所以本论文探讨的主要内容、关键技术及革新点主要有以下一些:一、本论文采取统计自然语言处理策略,收集了少数民族汉语初中教材第五、六册30篇课文,建立了一个小规模的汉语语料库。语料库的工作包括断词断句处理、词性标注及统计浅析等。词性标注均严格按照《汉语词典》里的词做标注。这项工作是一项长期而繁重的工作,需要大量的手工劳动去完成。所建的语料库为后续的工作做了数据上的支持。二、汉语有着歧义和未登录词等不足,所以歧义消解和未登录词识别是汉语分词关键不足。本论文以最短路径算法解决歧义和未登录词具有快速、高效的特点,但不能很好的处理多条最短路径的不足,提出了对最短路径算法的改善策略——次短路径算法,这种策略避开了有着多条最短路径时不能判断最优解的不足,同时又延续了最短路径算法的特性。实验证明,次短路径算法对汉语分词的歧义效果和未登录词的识别有很大的改善作用。这是本论文的贡献之一。三、本论文浅析了如何在中文分词中建立隐马尔可夫模型(HMM)的结构和参数训练等不足,并用实句网格图详细的说明了HMM模型中的第二个解码不足的算法一维特比算法的历程,这样做的一个优势在于能够清楚地看到待切分的句子按维特比思想寻找最佳的阶段切分词,然后递归回溯找到最佳的词性序列,完成分词历程。目前这一不足的论述思想成熟,但现有的文献对其分词的实践细节描述的很匮乏,使得本论文的这项工作可作为新进入的探讨人员作为参考学习。这是本论文的贡献之二。四、结合次短路径搜索出来的路径,在已训练好的HMM模型下,通过仿真实验验证维特比分词算法,找到有效的分词结果。文中给出了与一般隐马尔可夫模型的分词比较。实验结果表明,结合次短路径算法的隐马尔可夫分词算法在一定条件下提升了隐马尔可夫算法的效率,同时也提升了分词的召回率和准确率。这是本论文的贡献之三。五、本论文的工作都是结合编程实践展开的。编程思想借助本论文作者发表的一篇论文。该论文详细论述了一种避开设计复杂程序的新策略。这种策略的思想是基于算法的逻辑结构独立于存储结构,在不转变算法逻辑结构的前提下,只转变算法的存储结构,如利用数组存储复杂的图结构来设计并实现图的深度优先算法。在这之前查到的文献都是基于图结构的存储方式,如邻接表等。这一策略使得很多程序都变得简单了本论文源于这一思想,将其运用于维特比算法上,只转变算法的输入输出接口,而不转变维特比算法的逻辑结构,就可以找到合适的词性序列。这一策略在程序设计课程上可以运用于许多优秀的经典算法。这是本论文的贡献之四。关键词:网络聊天机器人论文自然语言处理论文语料库论文隐马尔可夫论文维特比论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要2-4
ABSTRACT4-9
第一章 绪论9-16

1.1 选题背景及其作用9-10

1.2 网络聊天机器人概述10-12

1.2.1 网络聊天机器人的相关探讨动态11-12

1.2.1 国外探讨情况11-12

1.2.2 国内探讨情况12

1.2.3 中外比较12

1.3 网络聊天机器人关键技术12-13

1.4 主要技术路线13-14

1.5 本论文所做的工作14-16

第二章 中文分词处理技术简述16-20

2.1 中文分词技术的基本不足16-18

2.

1.1 中文分词的规范不足16

2.

1.2 中文分词的切分歧义16-17

2.

1.3 未登录词不足17-18

2.2 中文分词的主要策略18-20
第三章 可扩充语料库的建立20-24

3.1 计算机及软件工具环境20

3.2 可扩充语料库的建立20-22

3.3 词性词表库中的关键数据结构22-24

第四章 最短路径算法的改善算法24-33

4.1 最短路径的分词思想25-27

4.2 对最短路径算法的改善——次短路径算法27-33

第五章 隐马尔可夫模型的基本论述概述33-40

5.1 隐马尔可夫模型介绍33-34

5.2 隐马尔可夫模型的三个主要不足34

5.3 隐马尔可夫模型分词实例34-36

5.4 维特比算法介绍36-39

5.

4.1 观察序列与状态序列之间的联系36-37

5.

4.2 递归37-38

5.

4.3 回溯38

5.

4.4 维特比算法的具体步骤38

5.

4.5 维特比算法的优点38-39

5.5 本章小结39-40
第六章 基于次短路径的隐马尔可夫模型分词仿真实验40-45

6.1 HMM模型参数的训练40-41

6.2 基于次短路径的HMM算法分词41-42

6.3 实验及浅析42-45

6.

3.1 训练部分42-43

6.

3.2 分词部分43-44

6.

3.3 与一般的隐马尔可夫模型分词比较浅析44-45

第七章 总结及展望45-47

7.1 总结45

7.2 展望45-47

参考文献47-49
附录49-53
攻读学位期间发表的学术论文目录53-54
致谢54-55