免费论文查重: 大雅 万方 维普 turnitin paperpass

探索可视化基于聚类空间数据可视化办法

最后更新时间:2024-01-14 作者:用户投稿原创标记本站原创 点赞:24430 浏览:109184
论文导读:数,结合基本方法和参数特征设计专门用于聚类结果表达的可视化对象,进而实现空间数据的图上投影。最后对该类方法有待进一步探讨和改进的内容进行了展望。关键词:空间数据;空间聚类;Delaunay三角网的自适应空间聚类算法;空间数据可视化0引言随着信息技术的高速发展,空间数据呈现出海量式的增长,而人们对数据的分
摘 要:
首先介绍了目前空间数据可视化技术的研究内容和基本方法,对基于实体和基于区域两类常用方法进行了分析和总结。在此基础上提出了一种基于聚类的空间数据可视化方法,其基本思想是利用以Delaunay三角网的自适应空间聚类算法(ASCDT)为代表的空间聚类算法进行聚类分析,并获得结果描述参数,结合基本方法和参数特征设计专门用于聚类结果表达的可视化对象,进而实现空间数据的图上投影。最后对该类方法有待进一步探讨和改进的内容进行了展望。
关键词:空间数据;空间聚类;Delaunay三角网的自适应空间聚类算法;空间数据可视化
0 引言
随着信息技术的高速发展,空间数据呈现出海量式的增长,而人们对数据的分析与处理要求不断提高,“数据爆炸,知识匮乏”的问题逐渐凸显。如何建立一种有效的空间数据表达方法,为相关规划与管理部门提供决策支持工具,解决数据与决策者之间的鸿沟问题,即用户如何从海量的空间数据中获取有用信息,成为这一领域研究的热点和难点。可视化技术作为一种重要的数据挖掘手段,通过对空间信息的有效组织和直观展现,在解决海量数据的知识发现(Knowledge Discovery in Database,KDD)问题中发挥了重要的作用。
空间数据最主要的特征体现在其依赖于地理位置(如经度、维度等)分布。目前,空间数据可视化最常用的解决方法是采用基于地理信息系统(Geographic Information System,GIS)的方法。但是,随着相关领域空间数据规模和复杂程度的不断提高,单纯依靠地理信息系统的方法存在明显的缺陷——重“数据对象显示”,轻“信息结构刻画”。也就是说,基于地理信息系统的方法对数据中潜在的关系、规律、趋势和模式缺乏有效的表达,其结果通常很难直接作为决策者辅助决策的依据。
对于相对庞大的数据集而言,我们首先关注的往往是空间数据的宏观分布特征,即不直接以单个空间实体作为研究对象,而是通过一些统计性的手段对数据进行预处理,获取数据分布的基本模式和规律,然后通过合适的可视化手段进行表达,进而提高数据挖掘的效率。针对目前空间数据可视化技术在实际应用中的要求,结合现有方法存在的优缺点,本文提出了一种基于聚类的空间数据可视化方法。其基本思想是:通过聚类分析按照一定规则对空间数据进行有效的组织和规范;针对空间聚类结果,设计一种表达直观、易于学习、交互良好的可视化方法对其进行描述和展现,并且为用户提供必要的交互接口,进而提高空间数据挖掘进程的效率和结果的可信度。
1 空间数据可视化基本方法分析
地理信息系统作为相关信息系统设计与开发的技术支撑,可以将空间实体按照地理位置进行图上投影,并结合常用的可视化方法,实现专题属性的显示、查询和统计。空间数据可视化的基本方法包括基于圆点图标的方法、基于统计图的方法、基于密度图的方法和基于热区图的方法等。
基于圆点图标的方法用圆点表示空间对象,并利用空间对象的空间维信息将其投影到地图上,常用的投影方法有最近邻接点算法和基于曲线的算法。同时,可以利用圆点的尺寸、颜色和透明度等特征来表示空间对象的专题属性。但是,若数据量较大、地图范围有限,圆点图标会出现拥挤、重叠的现象,不能满足应用需要。利用栅格划分算法能够在一定程度上缓解重叠问题带来的不良影响。
基于统计图的方法,首先对关注的地图范围按照一定规则进行区域划分,针对每个区域进行统计分析,获得描述该区域专题属性的主要统计特征参数,最后采用适合的统计图显示。该方法具备一般统计图的优势,例如,方便对数据进行精确度量和对比,专题维维度数量限制小等。常用的统计图有饼状图、柱状图和雷达图。但是,由于统计图基本显示尺寸的要求,其出现的重叠问题可能更加突出。
基于密度图的方法是应用最为广泛的数据可视化方法之一,尤其是在人口密度方面。该方法的主要思想是用颜色对空间对象在地图上分布的密度值进行编码,不同颜色对应不同密度值或者密度值范围,通常先定义密度最大值和最小值分别对应的颜色,两者之间在视觉上要有明显差异且符合人们的认识习惯,如用红色表示最大值,用蓝色表示最小值。
基于热区图的方法用事先定义好的标准圆形分别描绘各空间实体对象,圆心位置与实体坐标位置重合,所有圆形半径相等,并根据用户关注的具体数量值论文导读:
对圆形进行径向渐变色彩的填充,进而表达空间实体的聚集性特征。基于热区图的方法利用形状、色彩以及透明度传递空间数据信息,对非精确信息表达合理,容易接受和理解;采用渐变平滑过渡的显示方法,视觉上更加柔和。
综上所述,常用的空间数据可视化方法各有优缺点。其中,基于圆点图标的方法和基于热区图的方法是从空间实体个体本身出发,对于数据量较大的情况,一方面,可能出现显示的“拥挤”和“重叠”;另一方面,也增加了渲染的成本。基于统计图的方法和基于密度图的方法,则是在对原始空间数据进行统计预处理的基础上实现的,其研究对象是“某一区域”,这样能够在一定程度上满足大数据量的可视化需求,但它们都侧重于空间实体在专题维度的统计信息,对实体本身在区域内的分布信息缺乏表达。
2 基于ASCDT的空间聚类分析
根据地理学第一定律可以得到结论:空间上距离近的实体间的相似性比距离远的实体的相似性大,即空间实体间的依赖关系。因此,通过空间聚类分析可以将空间实体依据一定的相似性度量标准划分成若干具有一定意义的空间簇,簇内实体尽可能相似,簇间实体尽可能相异。与传统聚类相比,其特殊性主要表现在实体的定义、相似性的定义以及类的定义三个方面。解决空间聚类相关问题通常要与地理信息相结合,重点考虑空间属性的关联性,即实体在空间位置上的直接或间接邻近关系。常用的空间聚类方法主要有基于划分的算法、基于层次的算法、基于密度的算法和基于图论的算法等。
2.1 ASCDT空间聚类算法 对于任意的平面点集,经过剖分得到的Delaunay三角网是唯一的,并且具有空外接圆和最大最小角等整体最优性质,因此得到了广泛的应用。Deng等[3]提出了一种基于Delaunay三角网的自适应空间聚类算法(Adaptive Spatial Clustering algorithm based on Delaunay Triangulation,ASCDT),其基本思想是首先通过建立Delaunay三角网来表达空间实体间的空间邻近关系,利用网边的基本统计量来定义整体和局部的约束准则,删除其中的不一致边(包括整体长边和局部长边以及局部“颈”或“链”)。针对障碍和区域限定的需求,有顾及空间障碍的自适应空间聚类算法——ASCDT+,采用障碍图层与Delaunay三角网的边进行叠置分析,并打断与障碍物相交的边,以此来考虑空间障碍对实体间可达性的阻隔,同时可将区域划分等价为闭合的空间障碍。与目前常用的空间聚类算法相比,其优势主要体现在对不同形状空间簇的识别、对实体不同密度分布的适应和对颈链问题的处理上。具体到本文需要解决的可视化问题,尤其表现为其采用物理学中凝聚力和凝聚场的思想,为聚类结果的可视化表达提供了必不可少的基础。利用ASCDT进行空间聚类分析的基本流程见图1。

2.2 ASCDT在空间数据可视化应用中的可行性分析

针对空间数据特点及其可视化实现需求,对ASCDT在空间数据可视化应用中的可行性作如下分析:
1)算法复杂度。ASCDT的整体复杂度约为O(N log N),主要体现在构建Delaunay三角网的过程,其他步骤的时间复杂度近似线性为O(N)。在实际操作中,ASCDT+算法只是引入了多图层操作的步骤,其复杂度也是线性的,所以整体复杂度并没有改变,仍然能够适应海量数据的应用需求。
2)聚类结果的易描述性。空间聚类结果的描述问题主要体现在空间簇的聚集程度上,常用的方法都是通过空间实体对应的Voronoi邻近实体集合计算得到的,而Delaunay三角网是Voronoi图的对偶图,所以实际操作中只需要根据Delaunay三角网定义的空间邻近关系来计算凝聚力,避免了计算的复杂性[7]。Delaunay三角网中任意两个空间实体P和Q间的凝聚力可定义为
其中:k为引力系数,可设为1;mP和mQ分为P和Q的质量,可视为空间实体论文导读:图标来表达,圆点图标的圆心、半径分别与空间簇的质心、范围半径相对应。用径向渐变色彩来表达每个空间簇的整体和局部聚集性特征,簇内实体数量通过渐变色彩范围来反映,实体数量越大,渐变色彩最大值越大,即圆点图标圆心处颜色值越大。具体实现中,根据不同的颜色空间模型(如RGB、HSL、HSV等)和使用的颜色分量通道,“值”的定义
专题维度的权重;d(P,Q)为实体P和Q间的欧氏距离,NV(P)表示实体P的直接邻近实体集合。
因此,一方面,可以通过设定凝聚力计算权值来反映专题属性(即用户关注的空间实体的非空间属性)对聚类结果的影响;另一方面,增强了聚类结果的可解释性和可用性,获得的空间簇可根据其特征参数进行描述和表示。
综上所述,ASCDT能够有效地结合空间实体对象的空间维属性和专题维属性进行聚类分析,通过三角网的建立约束空间位置,通过权重设定考虑用户感兴趣的专题维内容,并且获得的聚类结果易于可视化表达。
3 聚类结果可视化设计

3.1 可视化对象设计

可视化对象参考常用的圆点图标来表达,圆点图标的圆心、半径分别与空间簇的质心、范围半径相对应。用径向渐变色彩来表达每个空间簇的整体和局部聚集性特征,簇内实体数量通过渐变色彩范围来反映,实体数量越大,渐变色彩最大值越大,即圆点图标圆心处颜色值越大。具体实现中,根据不同的颜色空间模型(如RGB、HSL、HSV等)和使用的颜色分量通道,“值”的定义也有所区别,但都必须符合可视化的基本原则和人们的日常认识习惯。
簇内紧密度通过渐变色彩中间控制滑块位置来表达(可以参考常用的图形图像处理软件中的渐变工具,如图2),根据实际需要,滑块的数量可以是单个或多个,只要不引起视觉上的分辨压力。以单个滑块为例,当簇内实体分布紧密时,滑块位置越趋向于圆点图标的圆心位置,色彩越集中,对比越强烈;当簇内实体分布分散时,滑块位置越趋向于圆点图标的边缘位置,色彩越均匀,过渡越平滑。如图3。依据上述方法对各个空间簇进行可视化表达之后,有必要考虑簇间的位置关系,当空间簇对应的渐变圆点图标之间存在“拥挤”和“重叠”现象时,采用基于热区图的方法进行颜色和透明度的渐变叠加,实现平滑柔和过渡的效果,以符合一定的可视化美学标准。

3.2 聚类结果到可视化对象的映射关系

在设计可视化对象的基础上,建立聚类结果到可视化对象的映射关系,见图4。
其中,①~④映射通常都是包含一定变换的间接映射。映射①需要从空间坐标投影到用于实际显示的屏幕坐标,常用的投影方法类似于基于圆点图标的常用方法。映射②必须结合实际显示的地图范围来设定图标尺寸,可用面积或者半径来度量:尺寸过大,会出现“重叠”现象;尺寸过小,空间簇之间区别不明显。映射③要求在区别不同实体数量空间簇的同时,保证可视化的美学标准,尤其是对于同一类型的数据对象要保证规范统一。映射④可以以簇内紧密度的最大值为基准进行归一化,按不同的比例决定渐变色彩滑块位置。
虽然聚类结果的描述参数能够在一定程度上反映簇内实体的分布特征,但这种表示是模糊而不准确的。例如,由于采用圆形图标和径向渐变的可视化对象,簇内实体分布的方向性不明确,如果空间实体分布在相对于簇质心的不同方向,但其紧密程度相似,其可视化效果是没有差异的。为了满足用户对局部态势信息的需求,可以采用基于层次细节(Levels of Detail,LOD)的交互式可视化方法来实现宏微观态势的切换过渡。例如,设计实现从空间簇对应的圆形图标对象,到簇内空间对象对应的拓扑结构之间的平滑转换方法。
4 应用分析
以公路交通运输企业运力数据可视化为例,当获得关于车辆运输原始数据(即所有客/货运输记录)后,通过数据库操作过滤出相关字段,利用统计计算方法,得到表现其运力的主要指标,包括货物运送量(吨/年)、人员运送量(人/年)、计划完成率(%)等。然后,采用ASCDT对运输企业进行聚类分析,利用企业的经纬度原始定位,将用户感兴趣的具体运力指标作为凝聚力计算权重。在获得聚类结果之后,将包含多个运输企业的空间簇作为可视化对象,充分利用空间簇的描述参数,设计图形化表示方法,建立图上映射。最后,为用户提供必要的交互支持,包括运力指标选择、运输范围限定、宏微观态势切换等。其中,公路交通运输企业货物运送量数据可视化结果如图5所示,渐变色彩的取值反映了对应区域运输企业的年货运量,由于对重叠图标进行了平滑过渡处理,实际显示结果呈现出不规则形态。源于:电大毕业论文www.7ctime.com
论文导读:优秀论文查重www.7ctime.com上一页1234
优秀论文查重www.7ctime.com