免费论文查重: 大雅 万方 维普 turnitin paperpass

简析产品信息面向Web电子产品信息分布式检索系统设计与实现学术

最后更新时间:2024-03-02 作者:用户投稿原创标记本站原创 点赞:18943 浏览:76373
论文导读:oop和Lucene的分布式检索具有较高的检索性能。
0引言
互联网上的信息量呈爆炸性的趋势增长,出现了极为丰富的数据资源,使互联网变成了一个巨大的、分布广泛的全球性信息服务中心,涉及微博、新闻、电子商务、视频、音乐、新闻、教育、健康等诸多领域。其主要挑战包括如下几点:1)互联网上的大部分商业网站以非结构化或者半结构化的形式展现,其中以超文本标记语言(HyperText Markup Language, HTML)展现形式居多,缺乏语义特征,很难精确、稳定、高效地从中提取出信息。2) 商业信息的海量性,必然需要一个能够高效快速地抓取商业信息的应用系统。3) 随着搜索引擎的不断发展,人们对信息的检索速度、精确度等提出了更高的要求。4) 商业信息的海量性,必然导致分布式存储系统的产生,即如何在分布式存储系统的基础上执行高效的分布式计算已成为一大重要挑战。因此,如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,为用户提供更简便的商品信息浏览体验,具有极其摘自:学年论文www.7ctime.com
重大的现实意义。
而信息融合系统作为目前软件演化的重要技术,为应对这一挑战提供了一条可行之路。信息融合系统主要参照垂直搜索引擎的体系结构,基于Web数据挖掘技术,完成互联网上各类信息提取与融合。目前,在信息融合系统中,Web信息检索技术最为复杂。文献设计并实现分布式海量结构化数据存储检索系统。该系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率。在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能;然而,作者未就如何对查询结果进行规范化输出以满足用户需求进行讨论。文献[3]提出了一个基于内容及相似搜索的对等音乐文件共享系统。该系统利用了集合对等点来完成音乐文件的元数据的注册和搜索,把音乐文件的属性名-属性值对(AttributeValue Pair, Pair)通过音乐文件描述说明(Music File Description, MFD)来表示,使系统可以支持精确的检索;但是该方法需要花费大量时间建立目标属性名-属性值之间的索引关系。文献[4]提出了一种基于Solr 的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保证索引信息的实时展示,同时引入CommitLog 日志保证内存索引数据容灾,并通过主从模型Master/Sle保证搜索服务的可用性。该方法实现具有较好的可行性,能解决目前中小企业内部的搜索引擎系统的需求。文献[5]提出了一种网格环境中基于本体的信息检索体系模型。利用Globus 和OGSADAI 工具进行计算资源和数据资源的管理,整合了闲置资源,提高了资源利用率,同时,将数据访问服务化,统一了接口访问类型;但是该方法需要进行一步研究如何动态更新本体信息,且统一接口访问类型实现起来比较复杂。
在分布式检索技术实际应用过程中:一方面随着被索引文件的增多, 建立索引时间呈线性增长;另一方面在搜索引擎应用中, 当索引文件量达到一定等级时, 搜索引擎就遇到性能瓶颈。基于此,本文结合Hadoop和Lucene技术,实现了面向电子产品领域的分布式检索系统。同时,深入研究分布式基础架构Hadoop技术,提出了部分细粒度的改进,降低了系统建立索引的时间。本文实验表明基于Hadoop和Lucene的分布式检索具有较高的检索性能。