免费论文查重: 大雅 万方 维普 turnitin paperpass

浅议基于Heritrix与Hadoop海量网络学术获取及并行处理-要求

最后更新时间:2024-03-18 作者:用户投稿原创标记本站原创 点赞:13187 浏览:50123
论文导读:
摘要:随着网络的普及和进展,互联网作为网络学术文献的载体,在学术界的地位日益显著,提供的学术资源在广度和深度上都有了很大的进展。海量网络学术文献有着重要的学术价值,然而,由于其规模巨大、异构多样、无序分散、动态变化、更新速度快,很难为科研工作者所获取和有效利用,由此亟需一种快速有效的海量文献处理策略。海量数据的处理对服务器CPU、IO的吞吐都是严峻的考核,不论是处理速度、存储空间、容错性,还是在访问速度等方面,传统的技术架构和仅靠单台计算机基于串行的方式越来越不适应当前海量数据处理的要求。目前已有的海量数据处理策略在概念上较容易理解,然而由于数据量巨大,要在可接受的时间内完成相应的处理,只有进行并行化处理。通过提取出处理历程中有着的可并行工作的分量,用分布式模型来实现这些并行分量的并行执行历程,以便较好地解决海量文献处理历程中面对的内存消耗大、处理速度慢、特点向量维度高等不足。目前,大规模文本处理已成为一个挑战,同时也是海量数据处理探讨领域的热点不足。海量数据处理探讨的不断深入和开源软件的蓬勃进展,为海量网络学术文献的并行处理探讨提供了契机。本论文首先深入探讨了开源软件Hadoop和Heritrix的主要架构、工作原理、突出特点等平台基础;然后较全面地浅析了网络学术文献的主要来源及特点,网络学术文献的常用文件格式,并以此为切入点,设计了基于Heritrix与Hadoop的海量网络学术文献获取及并行处理模型。该模型首先利用Heritrix平台,通过获取案例设计、种子站点选择、抓取任务配置三个部分,编写相应的正则表达式,对种子站点进行抓取,将获取到的PDF文档资源镜像存储到本地磁盘;然后通过一个读目录程序DirReader将PDF文档存储路径分别读入数据库中,根据抽取出的学术文献特点,采取学术文献判定程序CheckPDF,对数据库中相应路径下的PDF文档进行学术文献判定;最后设计了学术文献预处理程序TxtCombine,该程序自动读取用户输入目录中全部的或抽样后的学术文献,将这些文件分别合并成一个Hadoop可以处理的大文件,并借助于Hadoop集群机器,运转IncidenceMatrix程序,通过笔者自定义的Mapper和Reducer函数,并行处理这些大文件,最终得到不同规模大小的词-文档矩阵。本论文还以任务调度、任务数量、Combine函数、文件压缩、重用JVM五个方面论述了如何对MapReduce任务进行优化。最后通过搭建Heritrix平台和Hadoop机器集群,对本论文提出的海量网络学术文献获取及并行处理模型中的各个部分,分别进行了具体实验,实验结果表明:本论文提出的网络学术文献获取及并行处理模型,能够较好地解决目前海量网络学术文献处理历程中面对的内存消耗大、处理速度慢、特点向量维度高等不足。关键词:Heritrix论文Hadoop论文海量数据论文网络学术文献论文并行处理论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要4-6
Abstract6-8
目录8-10
图表目录10-12
第1章 绪论12-21

1.1 探讨背景与作用12-14

1.2 国内外探讨近况14-18

1.3 主要探讨内容及思路18-20

1.4 本章小结20-21

第2章 Hadoop与Heritrix平台概述21-43

2.1 Hadoop平台基础21-35

2.

1.1 Hadoop项目及结构21-23

2.

1.2 Hadoop分布式文件系统23-28

2.

1.3 MapReduce编程模型28-32

2.

1.4 Hadoop平台搭建32-33

2.

1.5 Hadoop与其他系统的比较33-35

2.2 Heritrix平台基础35-42

2.1 开源网络爬虫工具35-40

2.2 爬虫工具比较浅析40-42

2.3 本章小结42-43

第3章 海量网络学术文献获取及并行处理模型设计43-61

3.1 网络学术文献的主要来源及常用文件格式43-46

3.

1.1 网络学术文献的主要来源及特点43-44

3.

1.2 网络学术文献的常用文件格式44-46

3.2 网络学术文献资源获取46-51
3.

2.1 网络学术文献获取案例46-47

3.

2.2 种子站点的选择47-48

3.

2.3 抓取任务的配置48-50

3.

2.4 文件类型和大小过滤50-51

3.3 网络学术文献资源判定51-53

3.4 网络学术文献并行处理53-57

3.4.1 数据预处理53-54

3.4.2 并行处理54-57

3.5 MapReduce任务的优化57-60

3.5.1 任务调度58

3.5.2 任务数量58-59

3.5.3 Combine函数59

3.5.4 文件压缩59-60

3.5.5 重用JVM60

3.6 本章小结60-61

第4章 海量网络学术文献获取及并行处理模型实现61-75

4.1 实验环境61

4.2 实验平台搭建61-65

4.

2.1 集群网络环境介绍61-62

4.

2.2 JDK安装及Ja环境变量配置62-63

4.

2.3 SSH无登录设置63

4.

2.4 Hadoop集群配置63-65

4.3 网络学术文献资源获取模块实现65-68

4.4 网络学术文献资源判定模块实现68-70

4.5 网络学术文献并行处理模块实现70-74

4.6 文章小结74-75

第5章 总结与展望75-77
参考文献77-80
致谢80-81
攻读硕士学位期间的科研情况81-82
附录A82-86
附录B86-95
附录C95-99
附录D99-102