阐释属性一种基于位置距离和属性特点结合聚类策略

最后更新时间：2024-02-24 作者：用户投稿原创标记

本站原创点赞:30114 浏览:134421

论文导读：，坐标中的两个坐标值对聚类分析的作用不同，其重要性用向量W（p）=（ws，wy）表示；同样，属性特征集中的m个特征对聚类分析的作用也是不一样的，其重要性可用权重向量W（f）=（w1，w2，…，wm）来表示，于是有了不等加权空间距离（unequalweightingmethoddistance）为uewmdis（si，sj）：uewmdis（si，sj）=wx|xi-xj|+wy|yi-yj|+（6）2基于空间
摘要：利用空间坐标和属性特征的有机结合，定义了3 种曼哈顿空间距离，用matlab编程给出了基于该空间距离的ACA-Cluster聚类算法，并对山东省生态环境质量进行了聚类分析和类型分区。实验表明，该方法可以较好地反映出空间位置邻近和属性特征相似的空间聚类要求。
关键词：空间距离；空间对象；ACACluster聚类；空间聚类；空间数据挖掘
16727800（2013）003005104
作者简介：石亚冰（1981-），女，硕士，广西师范学院计算机与信息工程学院讲师，研究方向为人工智能、空间数据挖掘。0 引言
空间对象本质上具有地理位置和属性特征双重含义，二者结合才能完整地描述空间特征和空间差异。综合考虑，这两类特征的空间聚类方法主要有分治法和一体化法。分治法中的空间聚类分析存在着两个偏向，一是从事 GIS 理论方法和技术工具研究的工作者大多根据空间对象的地理坐标进行聚类，即只考虑对象的空间邻近性，而不考虑对象属性特征的相似性；另一种是从事GIS 应用和地学研究的工作者，则直接套用传统聚类分析方法，根据属性特征集进行分析，而忽视了对象的空间邻近性。本文介绍的方法基于一体化法进行改进，一体化法是将空间要素的位置（即坐标）和非空间属性数据都视为空间要素的属性数据，并使用属性距离函数计算相似度，再结合kmeans算法进行聚类的方法。
本文主要做了以下工作：①定义了3种曼哈顿空间距离来度量空间对象的相似度；②给出了基于曼哈顿距离的ACACluster算法对空间对象进行聚类，在聚类过程中将空间坐标作为一个属性变量加以考虑，从而实现对空间对象进行多角度的聚类；③最后通过实验结果对比，证明在两种距离测度方式下一体化法的扩展功能，距离测度不同，算法同样能发挥较好的作用。
1 相似度距离定义
聚类分析中常用的距离有近10 种，最常采用的距离之一曼哈顿距离。
定义1 空间曼哈顿距离
（3）位置距离可以表达地物之间的邻近程度，属性距离则刻画地物之间属性特征的相似性。在聚类分析中，一般要求同类的地物既要在空间上邻近，又要在属性特征上相似。由此可见，单独采用位置距离或属性距离作为聚类分析的尺度，均不能很好地满足这一要求。为此，定义3 种把位置距离和属性距离结合在一起的空间距离。
定义2 基于位置距离和属性距离结合的空间距离
（4）定义3 同等加权空间距离
第二种定义方法是对位置距离和属性距离进行加权，分别为wp和wa。同等加权空间距离（equal weighting method distance）为ewmdis（si，sj）：ewmdis（si，sj）=wp|xi-xj|+|yi-yj|+
（5）定义4 不等加权空间距离
事实上，坐标中的两个坐标值对聚类分析的作用不同，其重要性用向量W（p）=（ws，wy）表示；同样，属性特征集中的m个特征对聚类分析的作用也是不一样的，其重要性可用权重向量W（f）=（w1，w2，…，wm）来表示，于是有了不等加权空间距离（unequal weighting method distance）为uewmdis（si，sj）：uewmdis（si，sj）=wx|xi-xj|+wy|yi-yj|+
（6）2 基于空间位置和属性特点的空间聚类算法
算法1 ACACluster
输入：簇的数目和包含n个样品的数据集
输出：centernum个簇
（1）设置最大叠代次数iternum。
（2）随机取centernum个样品作为聚类中心。m_center（i）.feature=m_pattern（i）.feature，m_center（i）.index=i；m_pattern（i）.category=i；i=（1～centernum），其余样本中心号为-1，样品到本类中心的距离为max（max为无穷大）。
（3）For j=1 to n
For i=1 to centernum
spades（m_parrentj，m_centerk）
Assign each m_parrentj to the cluster which has the closest diastance
//假设选取的样品分别属于每一类，需要分三类A、B论文导读：最小值和最大值，无量纲化以后，各属性介于0～100之间，各属性特征之间、属性特征和空间坐标之间具有横向可比性。本文共进行了2个大实验，一个是基于欧氏距离的聚类，还有一个基于曼哈顿距离的聚类。分别采用属性指标聚类、直角坐标聚类和空间聚类。最优聚类必须以达到WC最小和BC最大这一目的为依据，公式8中给出了两者的定义
、C，参见图1（a），用本文定义2的spadis（）距离来计算其余样本到这三类的距离，将它们归为距离最近的类。至此，所有的样本都归类完毕。
（4）For i=1 to centernum Do
m_cemteri=∑m_pattern∈Cim_pattern|Ci|
//计算各个类中心所有样品特征值的平均值作为该聚类中心的特征值。随着聚类中心的改变，样本的类号也在改变。
（5）循环第3和第4步，直至不再有样本类号发生变化或达到了最大迭代次数。
3 实验

3.1 实验数据

山东是我国东部沿海经济发达省份之一，经过20多年的经济高速增长，生态环境受到的压力越来越大，但省内也存在着明显的源于：论文格式字体要求www.7ctime.com
空间差异。为此，对全省17个城市的生态环境状况进行聚类分析，以把握其空间分布形态和差异规律。山东省17个城市的平面直角坐标和2000年生态环境指标数据如表1所示，采用了平面直角坐标和6个生态环境属性指标共计8个属性值来描述一个对象。
计算空间距离时还必须注意：第一，由于空间坐标和属性特征之间、各个属性特征之间的取值单位不一样，具体数值可能相差悬殊，为消除取值单位的影响，必须对坐标值和属性特征值进行无量纲化处理，公式为：ai=vi-vminvmax-vmin01 济南 -3 10

1.15 4 054 535 7.26 90 09 26.23 0.47 2.91

02 青岛 300 445.6 39 993 625 7.92 96.53 0.76 29.3 0.8 1.73
03 淄博 90 932.12 4 068 545 16.1 99.36

3.19 18.96 0.66 4.93

04 枣庄 49 432.82 3 856 434 3

1.31 96.25 4.88 34.37 0.56 4.11

05 东营 141 705.4 4 135 875 1

1.34 85.78 0.56 12.57 0.46 2.5

06 烟台 379 564.1 4 155 195 8.22 97.52

1.18 22.83 35 89

07 潍坊 188 006.9 4 057 260 13.78 90.26

1.23 32.55 14 2.14

08 济宁 -40 702.9 3 915 376 22.45 95.4

1.89 464 1 4.76

09 泰安 7 136.45 4 002 356 18.26 83.77

1.67 22.73 0.82 4.07

10 威海 442 665 4 157 542 4.35 9.59 0.65 16.25

1.78 0.42

11 日照 229 74

1.3 3 916 720 13.2 8.73 58 25.7 32 0.44

12 芜湖 5 376.09 399 892.2 15.75 3.56 5.5 17.42 0.58 1.77
13 临沂 121 076.7 3 879 386 12.42 5.83

1.08 211 0.74 4.42

14 德州 -64 024.9 4 140 965 19.31 4.63

1.86 30.77 0.68 83

15 聊城 -97 278.8 4 032 639 22.29

7.49 0.84 35.71 0.97 6.94

16 滨州 87 195.94 4 129 899 1

1.58 8.42 0.46 26.02 0.63 4.65

17 菏泽 -145 653 3 906 945 16.69 2.94 0.69 3

1.41 0.87 3.77

vmin和vmax分别为特征值（或坐标值） vi 的最小值和最大值，无量纲化以后，各属性介于0～100 之间，各属性特征之间、属性特征和空间坐标之间具有横向可比性。
本文共进行了2个大实验，一个是基于欧氏距离的聚类，还有一个基于曼哈顿距离的聚类。分别采用属性指标聚类、直角坐标聚类和空间聚类。最优聚类必须以达到WC最小和BC最大这一目的为依据，公式8中给出了两者的定义，mi指的是每个簇的均值。WCk=∑ki∑pj∈ci‖pj-mi‖
论文导读：专家对二者的重视度差异提出的，同时能反映出聚类者对空间对象的位置和属性的偏好程度，这些都会使得聚类结果发生变化，使空间聚类分析更加丰富多彩。（2）本文提出的聚类方法同时反映了空间位置和属性特征，使聚类结果更具客观性。尤其在区域规划中对各个功能区的划分，每个功能区自身应是连成一片的，且内部不摘自：本科毕业论
　（8）根据以上定义，本文中对比了两个实验的WC和BC。

3.2 基于欧氏距离的聚类结果

图1和图2分别表示基于属性聚类、基于空间聚类和基于空间属性结合聚类的实验结果。通过图2和图3 的对比，说明曼哈顿距离聚类结果同样也能反映出相似的聚类趋势。从5次运行试验的Bc和Wc曲线来看，各实验的曲线走势相似，说明利用曼哈顿距离进行聚类也能达到文献中提到的效果，同样能够在考虑属性相似的同时考虑空间位置相近，说明将空间要素的位置（即坐标）和非空间属性数据都视为空间要素的属性数据的一体化思想在曼哈顿距离测度方式下算法扩展成功。此外，在对同一空间数据集进行空间聚类分析时，可以考虑用以上提到的空间对象相似度测量的方式来获取更多的聚类信息，从而进一步丰富了聚类结果，为决策者提供了更多的决策依据。
由于初始种子的选取方式采用随机的方式，就本文提到的数据集共有680个候选方式，因此初始种子的不同会造成不同的聚类结果。在此利用一个有效性指数θ，公式9中给出定义，来判断受k约束的簇哪个是最优的。
（9）将θk 作为判断最优结果的依据，将聚类结果返回GIS数据库中，绘制地图。实验结果如图3-图5所示。图3由于仅采用属性特征的聚类分析，没有考虑城市之间的地域邻近性，因此聚类结果存在着同一类型的城市被其它类型的城市分开的现象，即同一类对象在空间上处于不相邻位置的现象。
图4仅采用位置坐标的聚类只考虑了地缘关系，尽管各类型区自成一片，但各类型区并没有实际的地学内涵，仅仅表示空间位置上的特征。
从图5聚类分析结果可以看出，只有基于坐标和属性相结合的空间聚类，既保持了同一类型区连成一片，又可以根据各类型区的属性指标的中心值赋予其地学含义，刻画了对象在其生态指标数据上的相似程度，同时刻画了各指标类别的空间分布格局，所以聚类结果更为合理。
4 结语
（1）本文给出的3 种空间距离测度都是在曼哈顿距离意义下定义的，本文只采用了基于位置距离和属性距离结合的空间距离。加权曼哈顿距离采用的权值不同，是针对不同的领域专家对二者的重视度差异提出的，同时能反映出聚类者对空间对象的位置和属性的偏好程度，这些都会使得聚类结果发生变化，使空间聚类分析更加丰富多彩。
（2）本文提出的聚类方法同时反映了空间位置和属性特征，使聚类结果更具客观性。尤其在区域规划中对各个功能区的划分，每个功能区自身应是连成一片的，且内部不摘自：本科毕业论文模板www.7ctime.com
能有孔（其它类型区）。本文方法更加有效，同时证明了该算法思想在两种距离测度中具有可扩展性。
（3）根据本文所述的空间距离测度，采用现代聚类方法如遗传算法、人工神经网络、进化算法、决策树等方法进行空间对象分类，是一个值得注意的研究方向。摘自：毕业论文怎么写www.7ctime.com

快捷导航：

推荐正文相关热门排行榜猜你喜欢

排行榜