免费论文查重: 大雅 万方 维普 turnitin paperpass

谈英汉电子邮件文档中维、英、汉文种识别技术与实现怎样

最后更新时间:2024-01-25 作者:用户投稿原创标记本站原创 点赞:8153 浏览:24724
论文导读:
摘要:近年来,在新疆互联网运用本地化历程中随着技术的不步进步和进展,维吾尔文新老文字在信息处理中得到了广泛利用,特别是在电子邮件中尤为突出。对于该文种的识别,具有非常鲜明的新疆地域特点,需要探讨开发相应识别技术和策略。本论文针对在工作中实际急需解决邮件中维英汉等文字识别的不足,在详细浅析了电子邮件结构、汉字编码识别技术的基础上,提出了字典驱动的电子邮件文档语种识别模型,采取新维文语料库和字典构造、字典查询内存快速定位等方式策略,重点解决了对维吾尔新文字和老文字的识别技术难题。开发了专门的电子邮件文档维英汉等文字文种识别运用系统,提升系统对海量邮件识别的运转效率。该系统在通过大量测试、浅析和不断改善后,目前已在实际业务中得以运用,各项功能、指标达到系统设计要求,解决了实际工作中迫切需要解决的技术不足,取得了较好的效果。关键词:电子邮件论文维英汉文种识别论文字典驱动论文内存快速定位论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要3-4
Abstract4-8
第一章 绪论8-12

1.1 论文的探讨背景及选题8

1.2 国内外探讨近况与浅析8-10

1.3 论文探讨的主要内容10

1.4 论文各章节的安排10-12

第二章 相关技术概述12-22

2.1 RFC822 邮件格式12-13

2.2 MIME 协议邮件格式13-18

2.1 MIME 邮件的组织结构14-16

2.2 MIME 邮件的编码方式16-18

2.3 维吾尔文的特点18-20

2.3.1 维吾尔文老文字18-19

2.3.2 维吾尔文新文字19-20

2.3.3 维吾尔文字的编码特点20

2.4 本章小结20-22

第三章 电子邮件文档文种识别系统需求浅析22-30

3.1 信访邮件系统需求浅析22-25

3.

1.1 系统组成23

3.

1.2 系统功能23-25

3.2 电子邮件文档文种识别系统需求浅析25-28
3.

2.1 用户特点调查25-26

3.

2.2 新疆少数民族文字在互联网上的运用情况26

3.

2.3 系统目标26-27

3.

2.4 系统功能需求27-28

3.

2.5 系统性能需求28

3.3 本章小结28-30
第四章 电子邮件文档文种识别系统关键技术浅析与设计30-44

4.1 电子邮件文档中维英汉等文种识别的难点浅析30-31

4.2 字典驱动的识别案例设计31-32

4.3 功能模块设计32-33

4.4 汉字常用码制识别算法33-34

4.5 N-Gram 及其在汉字编码识别中的运用34-37

4.5.1 N-Gram 模型34

4.5.2 Uni-Gram 在编码识别中的运用34-35

4.5.3 编码识别历程35-36

4.5.4 索引方式36-37

4.5.5 性能浅析37

4.6 基于贝叶斯分类识别策略37-41

4.7 基于码制可行度的识别策略41

4.8 汉字识别案例的选择41-42

4.9 本章小结42-44

第五章 电子邮件文档文种识别系统详细设计与实现44-64

5.1 构建符合互联网运用的新维文语料库和字典44-55

5.

1.1 新维文语料的采集处理历程44-46

5.

1.2 项目初期的新维文语料采集工作46-47

5.

1.3 新维文语料库和字典数据库设计47-49

5.

1.4 基于新维文语料库创建新维文字典49

5.

1.5 对新维文字典查询浅析49-55

5.

1.6 创建英文字典55

5.2 电子邮件文档中维英汉文种识别设计与实现55-61
5.

2.1 邮件体中邮件正文的提取55-56

5.

2.2 邮件正文的解码56

5.

2.3 邮件正文部分的清洗56-57

5.

2.4 邮件正文字符串的分解57-58

5.

2.5 新维文、英文的识别58-59

5.

2.6 汉字识别和阿拉伯文字母转换及老维文的识别59-60

5.

2.7 确定文档文本识别结果60-61

5.3 系统运用情况61-63
5.

3.1 系统运转情况61-63

5.

3.2 工作效益和推广情况63

5.4 本章小结63-64
第六章 总结与展望64-66
致谢66-68
参考文献68-70