免费论文查重: 大雅 万方 维普 turnitin paperpass

简述朴素基于决策树和贝叶斯算法垃圾网页检测和实现

最后更新时间:2024-01-30 作者:用户投稿原创标记本站原创 点赞:25195 浏览:109830
论文导读:论文的组织结构14-15第2章获取垃圾网页特点的相关知识及技术15-272.1搜索引擎排序算法15-182.1.1向量空间模型(V)16-172.1.2PageRank模型17-182.2特点向量的降维18-222.2.1改善的χ2统计量和方式聚合的文本降维原理192.2.2改善χ2统计量和方式聚合的文本降维流程19-212.2.3改善χ2统计量和方式聚合的实例测试浅析2
摘要:互联网时代,搜索引擎面对着巨大的压力,不仅由于每天新增的网页以数以万计的速度在增加,而且还因为许多网站经营者通过各种非法手段骗取搜索引擎的高排名。如何能够以浩瀚的网络海洋中获取准确的信息,过滤不健康、非法以及无用的信息成为当下互联网探讨的又一个热点。目前探讨的重点主要集中于过滤无用的信息,而没有考虑到其中混杂的许多不健康及非法的网页。由此结合决策树和贝叶斯算法的文本分类优势,找出一种既能排除单纯骗取高排名的网页,又能过滤传播不健康和非法信息的网页的智能算法成为时事所需。基于以上考虑,本论文首先定义了两种垃圾网页,一种是通过一些手段,提升其在搜索引擎索引结果中的排名权重,造成搜索引擎索引结果准确率下降,严重影响搜索引擎的正常利用,这部分网页称之为搜索引擎垃圾网页;另一种是网页中所表达的文本信息是违反道德、法律和文化的垃圾信息,这样的信息可能对社会产生严重的负面影响,这种网页称之为不良信息垃圾网页。无论站在自身或是整个社会的角度,检测并过滤这两种垃圾网页都是搜索引擎现阶段一个重要的任务。通过对垃圾网页检测算法探讨近况的浅析,本论文结合决策树算法(ID3)和贝叶斯算法来对这两种垃圾网页进行过滤。之所以结合利用两种算法,是因为通过实验浅析发现,ID3算法虽然对搜索引擎垃圾网页的检测精度非常高,但是却很难捕获到一些与正常网页特点无异的不良信息垃圾网页,利用贝叶斯算法正好可以弥补ID3算法在这方面的不足,这主要是因为朴素贝叶斯分类器对基于内容的文本有很高的分类精度。ID3是一种基于信息增益的分类算法,本身有着许多缺陷和不足,本论文针对垃圾网页的特点,提出了一种改善的ID3算法,实验结果显示,新的改善算法不仅提升了分类的准确率,同时也有效降低了特点空间的维数(剪去了许多不必要的分枝,使算法的执行效率更高)。本论文还对朴素贝叶斯分类器在垃圾网页检测不足上的基本对策做了许多细节性的改善,并提出了一种基于χ2统计的ASN算法(ASN是属性选择的朴素贝叶斯分类器的缩写),通过实验结果浅析,分类效果非常好,检漏率基本制约在8%以内。为了验证结合两种算法的可行性,本论文还实现了一个检测系统,该系统对单一类垃圾网页的检测精度达到(72±1.5)%,对于两种垃圾网页的同时检测精度达到(75±0.85)%,对两种垃圾网页的同时检测精度相比目前正在利用的过滤器提升效果非常显著。关键词:Web论文spam论文垃圾网页检测论文ID3算法论文朴素贝叶斯分类器论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要4-5
Abstract5-9
第1章 绪论9-15

1.1 课题背景9-12

1.1 垃圾网页的定义9-10

1.2 垃圾网页检测算法的探讨近况10-11

1.3 网页过滤技术的主要方向11-12

1.2 本课题的目的和作用12-13

1.3 本论文主要工作13-14

1.4 本论文的组织结构14-15

第2章 获取垃圾网页特点的相关知识及技术15-27

2.1 搜索引擎排序算法15-18

2.

1.1 向量空间模型(V)16-17

2.

1.2 PageRank模型17-18

2.2 特点向量的降维18-22

2.1 改善的χ2统计量和方式聚合的文本降维原理19

2.2 改善χ2统计量和方式聚合的文本降维流程19-21

2.3 改善χ2统计量和方式聚合的实例测试浅析21-22

2.3 分词技术浅析22-25

2.3.1 基于内容匹配的中文分词策略22-24

2.3.2 基于统计的中文分词策略24-25

2.4 本章小结25-27

第3章 基于决策树的搜索引擎垃圾网页检测技术27-43

3.1 决策树的基本思想27-28

3.2 ID3 算法28-31

3.

2.1 ID3 算法基本原理28-29

3.

2.2 ID3 算法的优缺点浅析29-31

3.3 搜索引擎垃圾网页技术浅析31-32

3.4 一种改善的ID3 算法32-39

3.4.1 ID3 算法主要改善思想32-35

3.4.2 搜索引擎垃圾网页特点向量的选取35-39

3.5 实例浅析39-42

3.6 本章小结42-43

第4章 基于贝叶斯的不良信息垃圾网页检测技论文导读:4.2基于改善ASN策略的分类阶段55-564.5本章小结56-57第5章整合两种算法的检测系统的实现57-675.1系统总体设计575.2决策树模块的设计与实现57-595.3贝叶斯模块的设计与实现59-625.4数据库的设计62-635.5分词模块的实现63-665.6反馈学习及查重模块665.7本章小结66-67第6章实验及结果浅析67-73

6.1实验环境672决

术43-57

4.1 贝叶斯分类43-47

4.

1.1 贝叶斯公式43-45

4.

1.2 一般贝叶斯分类器45-46

4.

1.3 朴素贝叶斯分类器46-47

4.2 几种改善的朴素贝叶斯分类器47-50
4.

2.1 树扩展的朴素贝叶斯分类器(TAN)47-48

4.

2.2 隐藏扩展的朴素贝叶斯分类器(HAN)48-49

4.

2.3 属性选择的朴素贝叶斯分类器(ASN)49-50

4.3 一种基于改善χ2统计的ASN策略50-54
4.

3.1 改善ASN策略的基本思想51-52

4.

3.2 基于改善χ2统计的ASN策略的实现流程52-54

4.4 不良信息垃圾网页的具体检测对策54-56

4.1 基于改善ASN策略的学习阶段54-55

4.2 基于改善ASN策略的分类阶段55-56

4.5 本章小结56-57

第5章 整合两种算法的检测系统的实现57-67

5.1 系统总体设计57

5.2 决策树模块的设计与实现57-59

5.3 贝叶斯模块的设计与实现59-62

5.4 数据库的设计62-63

5.5 分词模块的实现63-66

5.6 反馈学习及查重模块66

5.7 本章小结66-67

第6章 实验及结果浅析67-73

6.1 实验环境67

6.2 决策树模块的实验浅析67-70

6.

2.1 数据采集67-68

6.

2.2 实验及结果比较68-70

6.3 样本数量和阈值对贝叶斯算法的影响70-71

6.4 系统运转速度测试71

6.5 本章小结71-73

结论73-75
参考文献75-79
攻读硕士学位期间所发表的学术论文79-81
致谢81