免费论文查重: 大雅 万方 维普 turnitin paperpass

对于网页基于Hadoop平台网页聚类策略选题

最后更新时间:2024-04-19 作者:用户投稿原创标记本站原创 点赞:9439 浏览:35615
论文导读:术17-212.2.1信息检索模型18-192.2.2网页搜索引擎19-202.2.3网页聚类20-212.3本章小结21-22第三章Hadoop平台概述和并行聚类算法综述22-303.1Hadoop平台介绍22-243.1.1Hadoop平台的架构22-233.1.2Hadoop平台与其它系统的比较23-243.2HDFS概述24-253.2.1HDFS的基本概念24-253.2.2HDFS的系统架构253.3MapRe
摘要:网页是互联网中信息有着的主要形式,人们通过网页发布和查询信息。而随着信息时代的日益变迁,网页的数量呈现了爆炸式的增加。在数以亿计的网页中,如何才能更加有效的挖掘知识?如何才能快速的辨别垃圾信息?如何才能更加以容地对数据归类?数据挖掘是处理这些不足的有力工具,而网页聚类则是其中的一种手段。通过聚类,能够无监督或半监督的对网页进行基于语义的划分。网页聚类的实际运用很广,它能够运用到很多实际不足当中。搜索引擎能够通过网页聚类,为用户提供更多的相关信息。对搜索引擎结果进行聚类,能够为用户提供搜索结果的导航,用户能够根据聚类标签,直接定位到自己期望的内容。网页聚类还能区分垃圾网页等等。由此,网页聚类一直以来都是数据挖掘中的一个探讨重点,但是还有很多不足值得我们继续探讨。可以将网页聚类不足划分为多个子不足,即网页的去噪、内容的提取、相似度的定义、降维、聚类算法的运用、类别数目的确定、聚类标签的生成等。对于上面陈述的的每个子不足,都经过了前人的探讨,但仍然有着改善的空间。本论文针对网页聚类不足中的聚类算法的运用进行了探讨,将Multiclass谱聚类算法运用到了网页聚类和网页结果聚类中。并实现了能对搜索结果聚类的网页搜索引擎,该搜索引擎系统中集成了多重聚类方式,集成了Multiclass谱聚类算法和Normapzed Cuts算法等聚类算法。基于谱聚类的网页聚类策略虽然能够获得良好的聚类效果,但算法中利用了一个N*N维(其中N是聚类对象的个数)的矩阵来表示聚类对象之间的相似联系。随着聚类对象数目的增加,该矩阵的大小增加更快,导致内存无法存储该矩阵,以而使得谱聚类策略失去可扩展性。由此本论文探讨了增强谱聚类的扩展性的策略,提出了利用Hadoop平台中的MapReduce机制扩展Normapzed Cuts算法的策略,并实现了基于Hadoop平台的网页聚类策略,这种策略具有可扩展性,能并行的执行,以而解决了单台机器不能将整个相似性矩阵存储在内存中的不足。关键词:Normapzed论文Cuts论文Multiclass谱聚类论文网页聚类论文Hadoop论文MapReduce论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
Abstract6-9
第一章 绪论9-15

1.1 探讨背景和作用9-10

1.2 国内外相关探讨近况10-13

1.2.1 网页聚类的探讨近况10-11

1.2.2 聚类算法的探讨近况11-12

1.2.3 可扩展的聚类算法探讨近况12-13

1.3 主要探讨内容13-14

1.3.1 基于谱聚类的网页聚类13

1.3.2 网页搜索引擎结果聚类13-14

1.3.3 基于 Hadoop 平台的网页聚类14

1.4 文章的内容框架14-15

第二章 Web 挖掘与 Web 信息检索15-22

2.1 Web 挖掘15-17

2.

1.1 Web 内容挖掘(Web Content Mining)15-16

2.

1.2 Web 结构挖掘(Web Structure Mining)16

2.

1.3 Web 用法挖掘(Web Usage Mining)16-17

2.2 Web 信息检索技术17-21

2.1 信息检索模型18-19

2.2 网页搜索引擎19-20

2.3 网页聚类20-21

2.3 本章小结21-22

第三章 Hadoop 平台概述和并行聚类算法综述22-30

3.1 Hadoop 平台介绍22-24

3.

1.1 Hadoop 平台的架构22-23

3.

1.2 Hadoop 平台与其它系统的比较23-24

3.2 HDFS 概述24-25
3.

2.1 HDFS 的基本概念24-25

3.

2.2 HDFS 的系统架构25

3.3 MapReduce 编程模型25-27

3.1 MapReduce 的系统架构25

3.2 MapReduce 的执行流程25-26

3.3 MapReduce 与 MPI 的比较26-27

3.4 并行聚类算法27-29

3.4.1 并行 K-Means 算法27-28

3.4.2 并行谱聚类算法28-29

3.5 本章小结29-30

第四章 基于谱聚类的串行网页聚类30-51

4.1 网页聚类的一般步骤30-35

4.

1.1 网页正文提取30-31

4.

1.2 网页分词31-32

4.

1.3 网页表示32-33

4.

1.4 网页相似性计算33

4.

1.5 聚类浅析33-34

4.

1.6 网页聚类的评价34-35

4.2 网页聚类实现35-39
4.

2.1 构建网页的相似性矩阵35-36

4.

2.2 网页聚类浅析36-39

4.3 搜索引擎结果聚类策略39-43
4.

3.1 搜索结果聚类的目的39-41

4.

3.2 搜索结果聚类预处理41-42

4.

3.3 搜索结果聚类浅析42-43

4.

3.4 聚类结果的显示43

4.4 系统实现43-48

4.1 构建搜索引擎43-46

4.2 搜索结果聚类效果46-48

4.5 实验浅析48-50

4.5.1 网页聚类效果评价48-49

4.5.2 网页聚类性能浅析49-50

4.6 本章小结50-51

第五章 基于 Hadoop 平台的并行网页聚类51-70

5.1 网页聚类并行化浅析51-53

5.

1.1 需并行的网页聚类算法51

5.

1.2 谱聚类划分策略的并行化浅析51-53

5.2 并行网页聚类53-63
5.

2.1 并行化构建网页向量53-56

5.

2.2 并行相似性矩阵计算56-58

5.

2.3 矩阵相乘的并行化58

5.

2.4 特点向量计算的并行化58-59

5.

2.5 数据划分的并行化59-63

5.3 实验结果63-69
5.

3.1 Hadoop 平台的搭建63-64

5.

3.2 预处理实验及浅析64

5.

3.3 相似矩阵计算实验及浅析64-66

5.

3.4 求解特点向量实验浅析66-67

5.

3.5 数据划分实验及浅析67

5.3.6 总体评价论文导读:67-695.4本章小结69-70总结与展望70-72参考文献72-77攻读硕士学位期间取得的探讨成果77-78致谢78上一页12
67-69

5.4 本章小结69-70

总结与展望70-72
参考文献72-77
攻读硕士学位期间取得的探讨成果77-78
致谢78