免费论文查重: 大雅 万方 维普 turnitin paperpass

研讨在线高性能气象数据存储集群及在线扩展技术运用

最后更新时间:2024-03-09 作者:用户投稿原创标记本站原创 点赞:32831 浏览:147368
论文导读:着业务数据变化的灵活扩展,使系统具备优秀的扩展性和适应性。关键词:气象数据存储;存储集群;SAN;GPFS集群;在线扩展:A1引言随着气象事业和科技水平的迅速发展,气象数据的种类、数量也随之迅速增长,目前气象数据的存储采用数据库和共享文件优秀论文查重www.7ctime.com系统两种技术,根据数据特点和服务方式
作者简介:赵春燕(1984—),女, 北京人,工程师,研究方向:高性能计算系统管理维护、软件配置管理(E-mail:zhaocy@cma.gov.cn);孙英锐(1973—),男,河北迁交人,高级工程师,硕士,研究方向:气象数据存储管理。
摘要:为了满足气象数据快速增长和高效应用的业务需求,设计采用基于SAN和GPFS的高性能存储集群进行数据存储,并随着数据量的快速增长,实现灵活在线扩展以满足数据存储需求。结合国家级气象资料存储检索系统、省级风能资源数据库共享服务系统和风能资源数值模拟系统的存储设计,阐述基于SAN和GPFS技术的存储集群架构,并重点介绍存储集群的在线扩展技术的实现。基于SAN和GPFS的存储集群在线扩展技术包含在线扩展服务器节点、在线扩展存储容量和在线扩展文件系统容量三方面,实现了气象数据存储系统随着业务数据变化的灵活扩展,使系统具备优秀的扩展性和适应性。
关键词:气象数据存储;存储集群;SAN;GPFS集群;在线扩展
:A
1引言
随着气象事业和科技水平的迅速发展,气象数据的种类、数量也随之迅速增长,目前气象数据的存储采用数据库和共享文件优秀论文查重www.7ctime.com
系统两种技术,根据数据特点和服务方式将数据按照在线、近线和离线三种方式进行存储。由于气象数据种类多、数量大、格式多样,除通用数据库、专题数据库存储的数据之外,还有大量的数据采用高性能的共享文件系统实现在高速磁盘阵列上的直接在线存储,以满足业务应用、服务和安全备份的需求。随着业务的不断丰富,数据量呈现快速增长,大量数据库系统也采用高性能共享文件系统作为底层存储,如何高效的访问存储,保障业务应用的数据访问效率,同时考虑满足不断增长的数据存储需求,灵活的在线扩展,成为存储系统设计和实现中必须考虑的问题。
我国气象部门应用广泛采用GPFS(General Parallel File System)、NFS(Network File System)等共享文件系统。GPFS是一个可扩展、高性能、安全的通用并行文件系统,在性能和安全性上优于NFS[3],结合SAN(Storage Area Network)[4] 高速高可靠网络互联技术,构成高性能的数据存储集群[5],实现大容量数据库存储和直接的在线存储,广泛的应用于气象信息系统数据库、共享数据存储系统建设中。
针对基于SAN和GPFS的存储集群架构,探讨了在数据计算和处理能力、存储容量、文件系统容量变更等三方面的在线扩展技术,对气象数据存储系统的灵活扩展具有重要意义。
2高性能气象数据存储集群设计
基于SAN和GPFS的存储集群物理架构包含三层,1)存储层:高速磁盘阵列;2)SAN存储网络层:冗余链路配置的高速SAN存储区域网;3)服务器层:至少两台的服务器作为冗余的数据访问处理节点。

2.1存储集群架构设计

2.1.1.物理架构 本实例采用三台服务器作为集群节点,配置两台冗余SAN光纤交换机,四台磁盘阵列。每台服务器配置两块HBA卡,冗余连接至两台SAN交换机。每台光纤交换机配置2个控制器,每个控制器两个端口,将每个控制器冗余连接到两台SAN交换机。如图1所示,为存储集群的物理架构,冗余配置保证了在Zone划分后集群的高可靠性。服务器节点间通过以太网连接,服务器节点和存储之间的连接链路采用光纤线,磁盘阵列采用高端磁盘阵列,构成高性能数据存储管理集群,根据业务数据访问性能需求和磁盘阵列的光纤出口速率,可对集群性能进行精细化分析,在此不详细探讨。
2.

1.2逻辑架构

使集群节点访问存储设备的路径唯一,需要对连接到SAN中的服务器和存储划分Zone,实现设备的隔离。Zone划分好以后,配置GPFS集群,形成逻辑上的存储集群。存储集群的逻辑架构如图2所示,GPFS将物理磁盘映射形成虚拟设备NSD(Network Share Disk),将一个或多个NSD作为逻辑文件设备挂载到服务器节点上提供给文件系统使用。

2.2存储集群构建

2.1物理结构配置

1)将三台服务器连接至以太网络,配置光纤交换机,配置Domain。
SAN1:Domain为1,SAN2:Domain为2
2)规划服务器节点和存储占用的交换机论文导读:
端口,并按规则为每个控制器进行编号,在交换机中配置。
(1)服务器节点
控制器A:I-SRV-1-A-1:1,1 ;
控制器B:I- SRV-1-B-2:2,1 ;
各项含义为:交换-服务器-服务器编号-控制器-Domain:Domain,端口号
(2)磁盘阵列
控制器A:I-DS42-1-A-1:1,4 ;
控制器A:I-DS42-1-A-2:2,4 ;
控制器B:I- DS42-1-B-1:1,5 ;
控制器B:I- DS42-1-B-2:2,5 ;
各项含义为:交换-阵列名称-阵列编号-控制器-Domain:Domain,端口号
3)物理连线:按照图1所示结构和端口规划,用光纤线连接服务器、SAN交换机和磁盘阵列。
4)Zone划分:创建Zone,并指定该Zone所包含的端口,将Zone添加到配置中,保存配置,并使其生效。
5)LUN Mapping:基于存储管理软件,将LUN与集群节点的端口进行绑定,使LUN与主机建立一对一或者多对一的映射关系。

2.2GPFS集群构建

如图3所示,在物理架构搭建后,对各个服务器节点做互信配置,并在每个节点上安装GPFS软件包,创建GPFS集群。根据应用需求创建文件系统,提供给文件存储使用或数据库应用,则构成GPFS高性能存储集群。 3存储集群在线扩展技术
图2所示GPFS存储集群的逻辑结构分为三层,服务器节点层、文件系统层、磁盘存储层。GPFS存储集群的扩展包含这三方面:在线扩展服务器节点、在线扩展磁盘容量和在线扩展文件系统。

3.1在线扩展服务器节点

风能资源数值模拟系统[6,7,8]基于SAN和GPFS的集群架构,由7台服务器节点构成高性能数据存储处理集群,但风能资源数值模拟业务涉及大量的计算和数据处理,随着业务计算需求的增加,7个节点的处理能力逐渐显得不足,需要在不影响现有应用的情况下在线扩展集群节点至16个。图4所示,将G07至G15节点在线增加至GPFS集群,流程与新建GPFS集群流程相似,如图5所示,在物理连接配置环节,将新增的节点逐一加入到已有的Zone中,并使配置生效,在集群配置环节将节点增加至集群。集群节点的扩展包括剔除节点,直接执行最后一个环节:从GPFS集群删除节点操作。

3.2在线扩展磁盘容量

国家级气象资料存储检索系统[9,10](简称“存储系统”)中采用了基于SAN和GPFS的集群架构,提供高性能计算机用户无法在高性能计算机上长期在线保存而又需要保存的各类数据以及需要备份和归档的数据。
扩容前存储能力为337.8TB,可用磁盘容量以所有文件系统平均90%为可用上限计算为304.02TB,仅有20TB左右的余量,无法满足数据量的增长,通过在线扩展磁盘阵列,实现系统无业务影响扩容80TB,如图6所示。
集群中存储容量的扩展,需要将新增的磁盘设备用光纤连线加入SAN中,并加入Zone的配置使其生效,将LUN与集群中的节点进行绑定。
流程如图7所示,将已连接集群的该存储设备创建为虚拟的NSD,并创建文件系统,分配这些空闲的NSD给挂载的文件系统。

3.3在源于:论文格式模板下载www.7ctime.com

线扩展文件系统容量
省级风能资源数据库共享服务系统[11,12]基于基础地理信息、风能资源专业观测网数据、详查区数值模拟结果与综合评估数据,为决策部门、业务用户、行业用户以及公众用户提供不同层次的风能数据共享服务,其数据库存储基于SAN和GPFS的集群架构设计实现。
表1所示为省级风能资源数据库共享服务系统文件系统容量扩展前的参数值,系统共建立四个文件系统,业务流程调试过程中发现/dev/gpfs_DB文件系统容量预估过小,不能满足应用需求,拟在不影响现有系统数据存储的情况下,对系统进行调整。
表2所示调整后情况,与表1所示调论文导读:
整前文件系统容量分布比较可以看出,/dev/gpfs_mysql文件系统容量由调整前的5.5TB缩减为2.2TB,/dev/gpfs_DB文件系统的容量由调整前的2.2TB,增加至5.5TB,而调整前后系统总容量未改变。调整过程在线进行,对用户和应用透明,未对现有数据发生影响。
该方法是在线实现容量调整的,但在实践中需要注意三点:1)GPFS在删除磁盘前会自动迁移走该盘上的数据,前提是该删除的磁盘是好的、可用的;2)除去要删除的磁盘之外,是否剩余足够的磁盘空间存储文件系统中的数据。3)在执行调整命令后留出一定的时间供GPFS元数据同步,防止元数据不一致导致的性能下降的问题。

3.4系统扩展效果

以上三套系统所采用的基于SAN和GPFS架构的存储集群,其分层的存储架构和灵活的在线扩展技术使得系统具有良好的业务适应性,能够提供高效的数据存储访问,并能够随着业务需求变化而快速、安全、无缝的扩展。
4总结
本文介绍了国家级气象资料存储检索系统、省级风能资源数据库共享服务系统和风能资源数值模拟系统的存储架构和在线扩展的实施,阐述了基于SAN和GPFS技术的高性能气象数据存储集群架构及其在线扩展技术,实现了存储集群数据处理能力、数据存储容量及文件系统容量随着气象数据和业务需求变化的灵活扩展。经过实践的检验,该存储架构具备灵活的可扩展性和适应性,能够在不影响已有数据应用服务的前提下实现在线扩展,适用于快速增长的气象数据存储管理的需求。
参考文献
杨昕. GPFS文件系统原理和模式IO优化方法[J]. 气象科技,2006,S1:27-28.
张媛, 卢泽新,刘亚萍. NFS over Lustre性能评测与分析[J]. 计算机工程,2007,(10):474-475.
[3]杨发毅,李东升. 典型商用并行文件系统分析[J]. 计算机与现代化,2006,(5):5-7.
[4]蒋丽娟. 基于SAN/NAS网络架构的存储整合技术[J]. 计算机系统应用,2011,(11):155-157.
[5]范中磊. 网络存储技术漫谈之三:集群存储[J].. 记录媒体技术,2010,(3):52-53.
[6]朱蓉, 何晓凤, 周荣卫,等. 区域风能资源的数值模拟评估方法[J]. 风能,2010,(4):50-51.
[7]张德, 朱蓉, 罗勇,等. 风能模拟系统WEST在中国风能数值模拟中的应用[J]. 高原气象,2008,(1):202-203
[8]周荣卫, 何晓凤, 朱蓉. MM5/CALMET模式系统在风能资源评估中的应用[J]. 自然资源学报,2010,(12):2101-2102.
[9]沈文海, 赵芳, 高华云,等. 国家级气象资料存储检索系统的建立. 应用气象学报, 2004,15(6):727-736.
[10]刘昊钰,马强,常飙,等.国家级气象资料存储检索系统监视分系统的设计和实现[J]. 应用气象学报,2007,(2):251-254.
[11]王英, 赵建民,陈慧,等. 内蒙古风能资源数据库共享服务系统[J]. 电子设计工程,2012,(17):32-33.
[12]艾艳,胡英媚,王甫棣,等. 风能资源观测数据省级传输系统[J]. 气象与环境科学,2010,(4):75-77.