研究抽取网络信息抽取技术分析与对比

最后更新时间：2024-01-15 作者：用户投稿原创标记

本站原创点赞:14305 浏览:59952

论文导读：
摘要：随着互联网爆炸式的发展和普及，网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代，越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而，由于网页文档的半结构化性质，网页上呈现的数据往往不能被机器自动地抽取和理解，因此，网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构，为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作，剖析了各个工作的优势和局限，并进一步作了综合的分类与比较。
关键词：网络信息抽取；包装器；模板
2095-2163（2013）05-0024-05
0引言
互联网已经成为一种公用信息的重要载体。在过去的二十年间，随着互联网的爆炸式的发展和大众型普及，涌现了众多应用网站，如新闻、博客、微博、社交网络、点评网站、在线论坛等。数量庞大的新闻媒体、商家机构和普通用户正不断、不停地在网络上发布信息，构成了一个海量的、宝贵的知识信息资源。
尽管互联网已成为庞大的数据金矿，但HTML网页——这一网络信息主要呈现方式——的设计初衷是供用户阅读，而非由机器读取，人们对网络数据信息的获取都仅限于网页浏览或是搜索引擎检索。这种表层的网页文本获取方式仅适于简单的文档检索任务，无法胜任更复杂、更精确的网络数据分析与挖掘任务。例如构建社区论坛的专家搜索系统，需要抽取帖子的发帖人、发帖时间、帖子内容等元数据信息。图 1为网络论坛页面的示意图，共包含两个论坛帖子（虚线框所示，称为数据记录），每个帖子又可分为若干数据单元，其含义由相应的语义标签进行表明和指示（如时间、作者、内容等）。数据记录、数据单元及单元的语义标签，即构成了网页呈现的结构化数据，如图 2所示。基于网络数据的大多数搜索和挖掘应用，都依赖于由输入网面转换而来的结构化的数据。由互联网网页中抽取结构化数据的过程称为网络信息抽取（Web Information Extraction）[1，2]。
网络信息抽取任务不同于传统的信息抽取（IE）任务。传统信息抽取的目的在于从自由文本中抽取数据，使用自然语言处理（Natural Language Processing）的技术，如词性标注、语法分析等。而网络信息抽取则从网页文档中抽取数据。网页文档是一种半结构化文档，通常是由服务器端的后台程序或脚本自动生成，含有特定的HTML标签作为分隔标志，但整体缺乏严格且统一的语法和语义信息，包含了表现上的一定自由度。不同于高度结构化的文档（如XML），半结构化的文档并不能由机器直接读取。而互联网数据的海量规模与高度异构特征，也为网络信息抽取带来了巨大的挑战。因此，开展网络信息抽取的研究工作具有相当的必要性和实用性。
1主要工作介绍和分析按照模型方法的自动化程度，可以将网络信息抽取工作
分为人工化、半自动化和全自动化三类。本节将从这三个方面，根据模型的提出时间，依次介绍相关工作，并分析各自的优势和局限

1.1人工化的网络信息抽取方法

早期的网络信息抽取工作，依靠人工编写的过程化程序来完成，如TSIMMIS[3]，Minerva[4]等。编写的程序依赖于特定的网页结构，无法移植于其它结构的网页，且需要一定的计算机程序专业知识，限制了方法的应用和推广。因此，这种方法并不适于大规模的网络信息抽取工作，已逐渐丧失其使用价值。
[HTH]

1.2半自动化的网络信息抽取方法[HTSS]

半自动化的方法，需要一定量的标注数据，因此也需要一定的人力成本。然而与人工化的方法不同，半自动化方法的标注任务简单直观，标注员经过简单训练即能胜任，并不需要计算机程序设计的专业知识，所以半结构化的方法能收集得到较大规模的标注数据，处理更大规模的抽取任务。
一类典型的半自动化方法，是利用标注数据，通过归纳推导，构建得到包装器（Wrapper）。包装器是信息集成系统中的一个模块，能抽取网页数据并将其转换为结构化数据（图 2）。具体可分为两种模式：基于抽取模式规则[5，6]和基于模板树匹配[7，8]。这两种模式均刻画了网页的模板结构，但却只适用于相同结构的网页，因此被称作（网站）模板相关的工作。当处理新结构的网站时，仍然需要再次论文导读：
标注。另外，模板的检测和维护也是重要的研究问题[9]。只是数据标注和模板维护都需要巨大的成本，因此，这种方法不适用于大规模的网络信息抽取工作。
为了克服模板化方法对网页结构的高依赖性，近年来半自动化的研究工作相继提出了（网站）模板无关的方法[10，11]。利用机器学习模型理摘自：本科毕业论文www.7ctime.com
论，挖掘领域内通用的、与网页结构无关的特征，从标注数据中训练得出统计模型。训练得到的模型不依赖于特定网站或特定的网页HTML结构，对同领域的多个网站具有普适性。然而，该模型仍然依赖于领域相关的标注数据和复杂的分类特征，当在不同领域应用时，页需要重新标注数据、修改特征甚至更换模型方法。
如引言所述，结构化数据一般包含三个层次：数据记录、单元和语义标签。半自动化方法往往将其中多个级别的抽取工作合并为一个步骤，以尽快利用数据单元的丰富特征信息。然而，这也导致了该类方法的模板或领域局限性。
[HTH]

1.3全自动化的网络信息抽取方法[HTSS]

全自动化方法不需要标注数据，与半自动的方法相比具有更大的优势。早期工作基于先验的启发式规则，包括Embley等[12]和OMINI[13]。然而，这类方法过度依赖于预先设计的启发式规则，难于扩展，抽取效果也不够理想。
其[JP2]后跟进的研究主要采用HTML标签重复序列模式识别的方法，包括IPEAD[14]和 Dela[15]，但在实际应用中仍需要人工选择有效识别模式。另外，依赖的HTML标签序列模式，并不能较好地反映HTML网页标签所展示的层次结构信息。[JP] 近年来，主流研究演进为利用网页DOM树（Document Object Model）识别重复相似子树的方法。与HTML标签序列相比，DOM树能更好地反应HTML网页内在的层次结构信息。MDR[16]对数据原创论文www.7ctime.com
对象结构做了典型的简单假设，并通过检测相似的DOM子树识别得到数据记录，获得了良好的抽取效果。后续工作包括DEPTA[17]，NET[18]，ViPER[19]，MiBAT[20]，RST[21]等。TPC[22]提出了一个基于DOM树路径特征挖掘的方法，对DOM树上所有从树根到标签的路径展现模式实现了聚类，同一聚类下若干重复交叠出现的树路径则组成一组数据记录。
另一类全自动方法利用了页面的视觉信息。Cai等[23]提出了VIPS算法，通过视觉布局，将输入网页分隔成不同部分。ViNTs[24]则利用了边界的视觉曲折变化特征，抽取搜索结果记录。ViDE[25]只是单纯利用了网页的视觉信息。然而，网页的视觉信息特征往往需要额外的资源文件（如Cascading Style Sheets （CSS）文件），用以计算网页元素的位置及大小信息，因此在实际应用中具有一定的局限性。
还有一类方法利用特定领域的本体知识以辅助数据抽取工作。例如，Embley等[12]将领域本体知识作为一种启发式规则。MiBAT[20]则将自动化的数据抽取方法与通用的领域约束相结合，由此提高数据抽取精度。
抽取的数据对象可以分为两种类型，即简单的关系K元组（K表示每个数据记录中含有的数据单元数量）和复杂的、具有嵌套层次结构的数据对象。Dela[15]研究识别嵌套的序列模式，NET[18]利用DOM树后序编历过程识别每一级的层次嵌套结构，TPC[22]和RST[21]利用启发式后续处理来检测嵌套结构。
以上研究工作主要集中于数据记录的信息抽取（虽然有些工作同时也完成了数据单元抽取），另外一些工作则集中研究数据单元的抽取。DEPTA[17]提出了局部树匹配以对齐数据单元，Lu等[26]则对数据单元进行了相似性聚类。Zhao等[27]讨论了DOM树结构与数据单元结构的不一致问题。RoadRunner[28]和EXALG[29论文导读：
]进一步比较了同一网站的多个网页的相似与差异，用以推导网页的文法模式或标签模板。
记录级别和单元级别的抽取完成时，全自动的方法还需要为每个数据单元分配适合的标签，以表示其具体语义（例如：“作者”、“时间”、“内容”等，见图 2）。目前，语义标签的自动化抽取仍然是个开放的问题。初步的研究工作主要基于启发规则和特征[15]或网页表单的查询接口等[26]。然而，同一种数据单元在不同的网站可能具有不同的标签文本，如何将这些标签映射到同一个全局的语义标签，则需要数据集成（Data Integration）方面的相关工作。
2综合分类和比较
由前文分析论述可知，除了按自动化程度划分之外，网络信息抽取任务还可以由输入类型、输出数据对象类型和使用的方法等多方面进行分类。
按输入页面数量，可以分为单一页面（即只需要一个单独的网页即可进行信息抽取）、多页面（需要利用由同一模板或脚本生成的多个网页）、网站链接地图（需要利用多种不同类型的网页及其中的链接指向关系）三种。

快捷导航：

推荐正文相关热门排行榜猜你喜欢

排行榜