免费论文查重: 大雅 万方 维普 turnitin paperpass

简析朴素基于朴素贝叶斯中文网页分类技术与运用基本

最后更新时间:2024-02-27 作者:用户投稿原创标记本站原创 点赞:10620 浏览:38052
论文导读:
摘要:中文网页分类是一项极具实用价值的技术,它在用户行为浅析、个性化推荐服务、精准化营销等领域都有着广泛的运用,但是当前网页分类的准确率和召回率不高,还有较大的提升空间,需对其中的关键流程进行改善,提升网页分类的性能。本论文主要对中文网页分类相关技术进行了深入探讨,并对其中三个关键流程网页预处理、特点选择、分类算法提出相应的改善思路和解决案例,具体内容如下:(1)在浅析中文网页结构和内容特点的基础上,提出一种基于DIV块文字链接比的正文内容提取策略,设计了一套网页预处理流程,并做实验进行验证;(2)针对传统卡方统计量特点选择算法有着忽略考虑特点词词频的影响和偏袒低文档频率的特点词这两方面缺陷,提出一种改善的卡方统计量算法ICHI,增加考虑特点词词频的影响和引入惩罚函数;(3)针对经典的树增强型朴素贝叶斯TAN算法在模型结构构造的时候有着属性之间依赖程度对称化、依赖联系无方向性、计算复杂等缺陷,提出一种改善的算法ITAN,把关联规则挖掘的思想运用到TAN模型结构学习中去;(4)把特点选择和分类算法结合到一起做实验,验证改善算法的优越性;实验结果表明本论文提出的改善思路是有效的,对网页分类的性能有一定提升。最后综合本论文所做的探讨工作,把中文网页分类技术运用到某电信运营商的互联网用户行为浅析系统设计与实现历程中,取得较好的效果。关键词:分类论文卡方统计量论文朴素贝叶斯论文关联规则论文特点选择论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
Abstract6-7
目录7-9
第一章 绪论9-13

1.1 课题的探讨背景及作用9

1.2 国内外探讨近况9-10

1.3 论文的主要工作及革新点10-11

1.4 论文的章节安排11-13

第二章 中文网页分类技术13-21

2.1 网页分类的基本概念13

2.2 中文网页分类的工作流程13-14

2.3 网页预处理14-15

2.4 中文分词15-16

2.5 特点选择算法16-18

2.6 文本表示模型18-19

2.7 分类算法19-20

2.8 本章小结20-21

第三章 网页预处理21-33

3.1 网页的基本结构和特点21-23

3.2 预处理流程设计23-31

3.

2.1 噪音信息初步过滤23-24

3.

2.2 不规范标签处理24

3.

2.3 网页主题信息提取24-31

3.3 实验及浅析31-32

3.4 本章小结32-33

第四章 卡方统计量算法的改善33-41

4.1 卡方检验的统计原理33-34

4.2 卡方统计量的计算历程34-36

4.3 卡方统计量算法的的缺陷浅析36-38

4.4 卡方统计量算法的改善对策38-39

4.5 本章小结39-41

第五章 朴素贝叶斯算法的改善41-52

5.1 贝叶斯论述相关知识41-42

5.2 贝叶斯分类的基本原理42

5.3 朴素贝叶斯分类模型42-44

5.4 朴素贝叶斯的扩展模型44-47

5.

4.1 贝叶斯网络44

5.

4.2 树增强型朴素贝叶斯44-47

5.5 关联规则挖掘相关论述47-48

5.6 TAN 算法的改善48-51

5.7 本章小结51-52

第六章 特点选择和分类算法的实验及浅析52-64

6.1 实验目的52

6.2 实验流程设计52

6.3 实验环境说明52-53

6.4 实验案例设置53-54

6.5 分类评价指标54-55

6.6 实验步骤55-56

6.7 实验结果及浅析56-63

6.8 本章小结63-64

第七章 互联网用户行为浅析系统设计与实现64-72

7.1 项目背景64-65

7.2 系统架构和开发环境65-66

7.3 系统设计与实现66-71

7.4 本章小结71-72

总结与展望72-73
参考文献73-75
攻读硕士学位期间取得的探讨成果75-76
致谢76