浅论版权基于版权信息新闻网页去重对策

最后更新时间：2024-02-10 作者：用户投稿原创标记

本站原创点赞:6978 浏览:23538

论文导读：益丰富。应用搜索引擎进行检索，经常会得到内容相同或相近的新闻网页，它们不但浪费了存储资源，而且加重了用户检索和阅读的负担。网页去重处理是提高搜索引擎的关键技术之一，因此，发现并去除重复网页信息的研究工作具有重要意义。文中提出了一种基于版权信息的新闻网页去重算法，其主要思想是：应用转载的新闻网页大多会标出其来
摘要：随着网络技术的迅速发展和互联网络规模的不断扩大，人们能够获得的新闻信息资源也日益丰富。应用搜索引擎进行检索，经常会得到内容相同或相近的新闻网页，它们不但浪费了存储资源，而且加重了用户检索和阅读的负担。网页去重处理是提高搜索引擎的关键技术之一，因此，发现并去除重复网页信息的研究工作具有重要意义。文中提出了一种基于版权信息的新闻网页去重算法，其主要思想是：应用转载的新闻网页大多会标出其来源这一特征，并结合网页文本内容进行新闻网页去重。实验结果表明：该方法有效，对新闻网页实现较好的去重，能够得到较高的正确率及召回率，具有很好的应用价值。
关键词：网页去重；搜索引擎；版权；新闻网页；模糊匹配
1009-3044(2012)26-6211-04
Detection and Elimination of Duplicated News Webpages Based on Copyright
GE Xiao-bin, LIU Jie, CUI Jian
(Department of Information,Tongling Vocational College, Tongling 244000, China)
Abstract: As the World Wide Web grows rapidly to become the largest and the most popular source of readily ailable informa? tion, it is increasingly abundant to access to information sources.Application of search engines, users often get the redundant news webpages with same content or similar news webpages, they will not only be a waste of storage resources, and increase users to re? trieve and read the burden. Weeding out duplicated news webpages is one of the key technologies论文导读：dnewswebpages,andcanbeahighaccuracyrateandtherateofrecall.Keywords:duplicatedwebpages;searchengine;copyright;newswebpages;fuzzymatching随着互联网技术和规模的空前发展，应用搜索引擎已经成为人们从互联网上获取信息的主要渠道之一。搜索引擎以一定的策略在互联网中搜集、发现信息，
of search engine, Consequent? ly,to detect and eliminate those pages in facsimile is of great significance. In this paper, a method based on copyright information is proposed to detect and eliminate the duplicated news webpages, This method basic thought is: reprint of most of the news web? pages will be the source of its marked characteristics, combined with the text content of the page to re-page news. The experi? mental result indicates that,this method can complete in view of the news content duplicated news webpages,and can be a high accuracy rate and the rate of recall.
Key words: duplicated webpages; search engine; copyright; news webpages; fuzzy matching
随着互联网技术和规模的空前发展，应用搜索引擎已经成为人们从互联网上获取信息的主要渠道之一。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织及处理，并为用户提供检索服务，从而起到信息导航目的。但是，由于互联网上的信息经常被相互转载，因此检索出的网页大多是具有相同信息的重复网页。根据中国互联网络信息中心2005年7月发布的统计报告显示，用户在回答“检索信息时遇到的最大问题”这一提问时，选择“重复信息太多”选项的占44.6 %，排名第1位；据统计，目前Inte rnet近似镜像网页数的比例约占全部页面的30%~45%；清华大学IT可用性实验室对Google、Baidu等中文搜索引擎的研究表明，重复网页占全部网页的比率，Goog论文导读：篇部分重复新闻网页，在PC源于：论文格式模板www.7ctime.com机器CPU为T5750，2.00GHz，内存为1024M，操作系统为WindowsXP的实验环境下进行实验，应用正确率及召回率对算法进行评价，实验结果如表1所示：表1实验结果图4文本修改率与去重召回率的关系根据图3，基于版权信息去重算法，其去重正确率稍低于基于特征码去重算法，究
le约占3.4%，Baidu约占2.1%[7]。国际上对转载文档去重方法的研究最初主要是针对大型文件系统，1993年，Arizona大学的Manber提出了一个SIF工具，用基于字符串匹配的方法来度量文件之间的相似性，用于在大规模文件系统中寻找内容相似的文件[8-9]。网页之间的大量转载使得网页冗余非常严重，大量重复网页的存在一方面加重了用户检索和阅读的负担；另一方面，也浪费了大量的存储资源，降低了索引效率，影响了准确率和召回率[3-7]。因此，准确、快速的发现并去除重复网页将是一项具有实际意义的工作。随着文本信息处理技术的发展，人们判断和处理近似网页的方法也日益丰富，如文本分类、聚类技术、特征码检索技术、特征串模糊匹配技术等等。
本文以新闻网页为研究对象，提出了基于版权信息的新闻网页去重策略，该方法应用转载的新闻网页大多会标出其来源这一特征，并结合网页文本内容进行新闻网页去重，提取主题信息。
篇部分重复新闻网页，在PC源于：论文格式模板www.7ctime.com
机器CPU为T5750，2.00GHz，内存为1024M，操作系统为Windows XP的实验环境下进行实验，应用正确率及召回率对算法进行评价，实验结果如表1所示：
表1实验结果图4文本修改率与去重召回率的关系
根据图3，基于版权信息去重算法，其去重正确率稍低于基于特征码去重算法，究其原因分析，有部分新闻网页在转载时，没有尊重版权，缺少版权信息的文字描述；根据图4，当新闻网页部分内容修改时，基于版权信息的去重算法明显优于基于特征码的去重算法，究其原因分析，主要是因为基于特征码的去重算法对文本修改非常敏感，微小的文本内容修改均有可能导致新闻网页特征码的变化。
法具有速度快，检测率高，算法容易实现等特点，能够有效地去除检索结果集合中内容相同或相近的新闻网页，能够在网页发生修改时兼顾查全率和查准率，更适合网页的去重。文中对新闻网页的结构特征进行了深入分析，但结构特征的选择具有一定局限性。下一步研究的重点是对文中提出的算法进一步进行完善，使得聚集的结果更合理，更符合网页本身的特征，提高检索质量，指导工程实践。
李晓明,闫宏飞.搜索引擎原理、技术与系统[M].北京:科学出版社,2004.
高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777.
[3]陈基论文导读：5(8):24-26.魏丽霞,郑家恒.基于网页文本结构的网页去重.计算机应用,2007,27(11):2854:2856.王建勇,谢正茂,雷鸣，等.近似镜像网页检测算法的研究与评价.电子学报,2000,28(11):130-132.阎亚杰.网页去重方法研究.电脑开发与应用,2008,21(8):60-62.ChoJH,ShivakumarN,Garcia-MolinaH.FindingACMInternati
漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(3-3):113-115.
[4]罗永莲,罗永秀,张永奎.突发事件新闻网页的去重方法研究[J].计算机应用与软件,2008,25(8):24-26.
[5]魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854:2856.
[6]王建勇,谢正茂,雷鸣，等.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(11):130-132.
[7]阎亚杰.网页去重方法研究[J].电脑开发与应用,2008,21(8):60-62.
[8] Cho J H,Shivakumar N,Garcia-Molina H.Finding ACM International Conference on Management of the Data[M]. USA:ACM Press,2000(2):355-366.
[9] Liu C J, Wechsler H. A shape and texture based en- hanced Fisher classifier for face recognition[J]. IEEE Transactions on Image Processing, 2001,10(4):598-608.

快捷导航：

推荐正文相关热门排行榜猜你喜欢

排行榜