对于网页基于Hadoop平台网页聚类策略选题

最后更新时间：2024-04-19 作者：用户投稿原创标记

本站原创点赞:9439 浏览:35615

论文导读：术17-212.2.1信息检索模型18-192.2.2网页搜索引擎19-202.2.3网页聚类20-212.3本章小结21-22第三章Hadoop平台概述和并行聚类算法综述22-303.1Hadoop平台介绍22-243.1.1Hadoop平台的架构22-233.1.2Hadoop平台与其它系统的比较23-243.2HDFS概述24-253.2.1HDFS的基本概念24-253.2.2HDFS的系统架构253.3MapRe
摘要：网页是互联网中信息有着的主要形式，人们通过网页发布和查询信息。而随着信息时代的日益变迁，网页的数量呈现了爆炸式的增加。在数以亿计的网页中，如何才能更加有效的挖掘知识？如何才能快速的辨别垃圾信息？如何才能更加以容地对数据归类？数据挖掘是处理这些不足的有力工具，而网页聚类则是其中的一种手段。通过聚类，能够无监督或半监督的对网页进行基于语义的划分。网页聚类的实际运用很广，它能够运用到很多实际不足当中。搜索引擎能够通过网页聚类，为用户提供更多的相关信息。对搜索引擎结果进行聚类，能够为用户提供搜索结果的导航，用户能够根据聚类标签，直接定位到自己期望的内容。网页聚类还能区分垃圾网页等等。由此，网页聚类一直以来都是数据挖掘中的一个探讨重点，但是还有很多不足值得我们继续探讨。可以将网页聚类不足划分为多个子不足，即网页的去噪、内容的提取、相似度的定义、降维、聚类算法的运用、类别数目的确定、聚类标签的生成等。对于上面陈述的的每个子不足，都经过了前人的探讨，但仍然有着改善的空间。本论文针对网页聚类不足中的聚类算法的运用进行了探讨，将Multiclass谱聚类算法运用到了网页聚类和网页结果聚类中。并实现了能对搜索结果聚类的网页搜索引擎，该搜索引擎系统中集成了多重聚类方式，集成了Multiclass谱聚类算法和Normapzed Cuts算法等聚类算法。基于谱聚类的网页聚类策略虽然能够获得良好的聚类效果，但算法中利用了一个N*N维（其中N是聚类对象的个数）的矩阵来表示聚类对象之间的相似联系。随着聚类对象数目的增加，该矩阵的大小增加更快，导致内存无法存储该矩阵，以而使得谱聚类策略失去可扩展性。由此本论文探讨了增强谱聚类的扩展性的策略，提出了利用Hadoop平台中的MapReduce机制扩展Normapzed Cuts算法的策略，并实现了基于Hadoop平台的网页聚类策略，这种策略具有可扩展性，能并行的执行，以而解决了单台机器不能将整个相似性矩阵存储在内存中的不足。关键词：Normapzed论文Cuts论文Multiclass谱聚类论文网页聚类论文Hadoop论文MapReduce论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
Abstract6-9
第一章绪论9-15

1.1 探讨背景和作用9-10

1.2 国内外相关探讨近况10-13

1.2.1 网页聚类的探讨近况10-11

1.2.2 聚类算法的探讨近况11-12

1.2.3 可扩展的聚类算法探讨近况12-13

1.3 主要探讨内容13-14

1.3.1 基于谱聚类的网页聚类13

1.3.2 网页搜索引擎结果聚类13-14

1.3.3 基于 Hadoop 平台的网页聚类14

1.4 文章的内容框架14-15

第二章 Web 挖掘与 Web 信息检索15-22

2.1 Web 挖掘15-17

1.1 Web 内容挖掘(Web Content Mining)15-16

1.2 Web 结构挖掘(Web Structure Mining)16

1.3 Web 用法挖掘(Web Usage Mining)16-17

2.2 Web 信息检索技术17-21

2.1 信息检索模型18-19

2.2 网页搜索引擎19-20

2.3 网页聚类20-21

2.3 本章小结21-22

第三章 Hadoop 平台概述和并行聚类算法综述22-30

3.1 Hadoop 平台介绍22-24

1.1 Hadoop 平台的架构22-23

1.2 Hadoop 平台与其它系统的比较23-24

3.2 HDFS 概述24-25
3.

2.1 HDFS 的基本概念24-25

2.2 HDFS 的系统架构25

3.3 MapReduce 编程模型25-27

3.1 MapReduce 的系统架构25

3.2 MapReduce 的执行流程25-26

3.3 MapReduce 与 MPI 的比较26-27

3.4 并行聚类算法27-29

3.4.1 并行 K-Means 算法27-28

3.4.2 并行谱聚类算法28-29

3.5 本章小结29-30

第四章基于谱聚类的串行网页聚类30-51

4.1 网页聚类的一般步骤30-35

1.1 网页正文提取30-31

1.2 网页分词31-32

1.3 网页表示32-33

1.4 网页相似性计算33

1.5 聚类浅析33-34

1.6 网页聚类的评价34-35

4.2 网页聚类实现35-39
4.

2.1 构建网页的相似性矩阵35-36

2.2 网页聚类浅析36-39

4.3 搜索引擎结果聚类策略39-43
4.

3.1 搜索结果聚类的目的39-41

3.2 搜索结果聚类预处理41-42

3.3 搜索结果聚类浅析42-43

3.4 聚类结果的显示43

4.4 系统实现43-48

4.1 构建搜索引擎43-46

4.2 搜索结果聚类效果46-48

4.5 实验浅析48-50

4.5.1 网页聚类效果评价48-49

4.5.2 网页聚类性能浅析49-50

4.6 本章小结50-51

第五章基于 Hadoop 平台的并行网页聚类51-70

5.1 网页聚类并行化浅析51-53

1.1 需并行的网页聚类算法51

1.2 谱聚类划分策略的并行化浅析51-53

5.2 并行网页聚类53-63
5.

2.1 并行化构建网页向量53-56

2.2 并行相似性矩阵计算56-58

2.3 矩阵相乘的并行化58

2.4 特点向量计算的并行化58-59

2.5 数据划分的并行化59-63

5.3 实验结果63-69
5.

3.1 Hadoop 平台的搭建63-64

3.2 预处理实验及浅析64

3.3 相似矩阵计算实验及浅析64-66

3.4 求解特点向量实验浅析66-67

3.5 数据划分实验及浅析67

5.3.6 总体评价论文导读：67-695.4本章小结69-70总结与展望70-72参考文献72-77攻读硕士学位期间取得的探讨成果77-78致谢78上一页12
67-69

5.4 本章小结69-70

总结与展望70-72
参考文献72-77
攻读硕士学位期间取得的探讨成果77-78
致谢78

快捷导航：

推荐正文相关热门排行榜猜你喜欢

排行榜