免费论文查重: 大雅 万方 维普 turnitin paperpass

基于语义信息集成系统分析-

最后更新时间:2024-01-17 作者:用户投稿原创标记本站原创 点赞:15585 浏览:68848
论文导读:
摘 要:语义网强调互联网应是数据之网,信息的关联应该依靠链接数据。文章以领域本体为基础,以数据集成为原理,建立了基于语义的信息集成系统。用户的查询是基于语义的,参照基于视图的查询响应方法,实施于全局模式上的查询转化为数据源上的查询。
关键词:语义 信息集成 查询
互联网上的信急检索机制给人们带来了极大的方便,但也存在着一些问题:面对用户输入的查询条件,系统或给出海量的检索结果,或遗漏了一些目标文档,其主要原因归结起来有两点:一方面现行的互联网是文档之网,同一领域和主题的信息依赖超级链接进行关联,普通应用程序只对网页上的内容进行简单处理。由于缺乏语义描述的支持,所以处理的结果是大量的文档,其中绝大部分与查询内容无关。另一方面,数据缺乏语义。在各种现行的信息索引系统中,与查询信息相关的数据缺乏必要的语义描述,搜索引擎的搜索机制是基于文本的关键词匹配,缺乏推理的支持,导致了大量工作仍需要用户自己完成。语义网技术的发展为传统的信息集成领域带来了新的契机,构建基于语义的信息集成系统对于知识的表示、信息的组织与检索等有着重要的意义。本文通过对领域本体的构建方法和对基于本体的数据集成方法的分析,提出一种基于语义的信息集成模型,改进传统的基于视图的查询响应方法。

一、本体的构建

本体用于描述概念及概念之间的关系,并通过这种描述来定义词汇的语义。作为一种有效表现概念层次结构和语义的模型,本体已经被广泛地应用到计算机科学的众多领域。在构造领域本体的时候,最重要的是要确定本体中的概念(类)和它们之间的关系,这种关系称为概念的属性,是概念与概念之间的“桥梁”领域。
本体的构建是一项复杂的工程,需要一整套的机制来支持和开展。并不存在着一个完全“正确”的本体构建方法,因为至少到目前为止,还没有一个公认的完整的本体评价机制,这也是本体工程中有待解决的一个问题。

二、基于本体的数据集成

数据集成旨在解决异构数据源的互操作问题。一些机构或领域可能拥有很多相互之间有信息关联却无法兼容的异构数据源,出于某种需求,用户需要对整个领域进行全局的信息检索,此时,数据的集成就成为解决这一问题的基本手段。
数据的异构主要有结构异构、语法异构和语义异构。结构异构和语法异构在传统的数据集成中已经得到较好的解决,但是对于语义上的异构问题,传统的数据集成技术则不能解决。这是因为语义的异构主要来自于不同系统中的数据源使用了不同的概念描述了同一事物,或是使用了相同的概念描述了不同的事物,前者称为异名同义问题,后者称为同名异义问题。本体的引入有助于解决这一问题。在基于本体的数据集成系统中,本体的作用主要有两个:表示概念和用于构建全局模式。

三、基于视图的查询响应及RDF/OWL视图

在数据集成的应用领域,利用视图进行查询响应的主要目的是建立一个全局视图。数据集成的方法主要有全局视图法和局部视图法。全局视图法中的全局模式是在数据源视图基础上建立的,它由一系列元素组成,每个元素对应一个(组)数据源,表示相应数据源的数据结构和操作;局部视图法中先构建全局模式,数据源的数据视图则是参照全局模式而定义,由全局模式按一定的规则推理得到。相比较而言,全局视图法容易实现,因为实施于全局模式上的查询只需简单地按规则展开便可转换成各个数据源上的子查询,类似于普通数据库上的查询操作。但是,全局视图法不能很好地支持数据源的史新,因为任一个数据源的史新都可能影响到全局视图。
与全局视图法相比,局部视图法的优点是它较好地支持了数据源的史新,有着良好的可扩展性。对于局部视图法而言,当其中的数据源更新时,只需参照全局模式的要求更新这组视图的定义即可,而无需更改系统的其他部分。但是,局部视图法的映射算法实现起来比较复杂,所以,全局模式上的查询转化成视图上的运算后,所得到的结果可能只是原始查询理论解的一个子集。
以RDF/OWL视图的形式定义好各数据源以后,系统就具备将语义查询(SPARQL查询)转化为SQL查询的条件了。

四、SPARQL查询向SQL查询的转化

在局部视图法中,两个关键问题要解决:一是将各数据源用一种本体描述语言视图化;二是在此基础上将实施于全局模式上的SYARQL查询转化为各数据源上的SQL查询。
SPARQL查询转化为SQL查询具体说来有以下步骤:一是构造语义SPARQL查询。用户在全局模式上以SPARQL查询的形式向系统发出请求。二是语义查询重写。参照视图定义,SPARQL查询被转化成相应SQL子查询。三是执行SQL查询。在各数据源上执行相应的SQL子查询,得出各子查询的相应结果。四是返回查询结果。将各SQL查询所得到的结果返回,并转化为RDF元组。其中,语义查询重写是最核心的任务。

五、基于语义的信息集成系统

至此,可以构建一个基于语义的信息集成系统模型。系统的特点在于以本体为基础,并以本体作为系统的全局模式。用户的操作实施在全局视图上,即对用户来说,真正的物理数据源是透明的,它只需要在全局视图上提出SPARQL语义查询,通过处理,SPARQL查询被转化成子SQL查询集合,系统收集各SQL查询执行的结果,以统一的格式将完整的查询结果返回给用户。
组件Mediator是中间件,Wrapper是包装器。它们是数据集成系统中的关键组件,中间件负责处理用户的查询请求,按照相应的视图定义,将用户的SPARQL查询进行转化分解,最终得到SQL子查询然后,中间件将各SQL子查询交付到相应的数据源所对应的包装器上,包装器在数据源的基础上执行子查询,并得到相应的查询结果;然后,包装器将其执行的结果传送至中间件,中间件将各子查询得到的结果进行整合,并最终转化为用户需要查询结果。

六、分析与总结

“基于语义的信息集成系统”可用于数据集成应用领域,它与传统的数据集成相比有着以下特点:
第一,全局模式构建在领域本体的基础上。随着语义网的发展,各应用领域都在加强建立通用本体,从目前的发展来看,本体是保证领域资源最论文导读:L向SQL转换技术研究的时间不长,但可以看出,这个问题己经得到突破性的进展。总之,在传统的数据集成的基础上,“基于本体的数据集成方案”是近年来数据集成机制的新方向。在语义网的发展中,要充分利用已经广泛存储于关系数据库中的各种数据,就必须要解决语义查询向传统关系模式查询的转化和重写,“基于语义的信息集成系统”
大程度共享的重要前提;另外,正是因为有了领域本体,才允许各数据源提供一种较为松散的集成机制,而这种松散的集成机制一般不会打破各个源系统之间的固有结构。即领域本体不仅促使了领域资源的最大化集成,也有效地保证了各数据源的相对独立性,这个特性将有助于解决“企业数据独立”与“企业信息共享摘自:7彩论文网本科毕业论文答辩www.7ctime.com
”之间的矛盾。另外,由于本体使数据具有了“语义”,因而使得知识推理变得可行,如W3C推出的OWL-DL就是基于描述逻辑的,在这种本体表示语言上,系统可以做到很好的逻辑推理。
第二,基于视图的查询。在商业化的今天,各个信息库都是企业赖以生存的资本,要构建一个访问各个物理数据源的领域集成系统是不现实的。在基于局部视图法的数据集成中,视图有利于数据源与全局模式之间保持较好的物理独立性,这种视图可以是物化视图,也可以是虚拟的,全局模式上转化过来的各个SQL子查询就是基于这样一组视图而演算的。另外,这些视图可由各个数据源的管理员提供,他们可以根据领域本体的规范和要求,在视图中展现出可以共享的数据,一些敏感信息可以通过视图来屏蔽,这极大地保证了数据的安全和独立。
第三,SPARQL查询向SQL查询的转换。模型中,SPARQL查询向SQL查询转换一般基于特定的视图定义规则。虽然SPARQL向SQL转换技术研究的时间不长,但可以看出,这个问题己经得到突破性的进展。
总之,在传统的数据集成的基础上,“基于本体的数据集成方案”是近年来数据集成机制的新方向。在语义网的发展中,要充分利用已经广泛存储于关系数据库中的各种数据,就必须要解决语义查询向传统关系模式查询的转化和重写,“基于语义的信息集成系统”正是建立在这种思想之上。综上可知,系统在理论与技术实现上都是可行的,以后的工作将主要放在RDF视图的构建及SPARQL查询向SQL查询转换的语义保持上。
(作者单位:湖北工业大学计算机学院)
【参考文献】

1、陈跃国,王京春.数据集成综述[J].计算机利学,2004(5).

2、Maedche A.Ontology Learning for the Semantic Web[J].IEEE intelligent Systems,2001(2).

3、杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006(9).

4、陈磊,陈盈.基于语义的信息集成系统研究[J].计算机技术与发展,2010(6).