经济文库 - 千万精品文档,你想要的都能搜到,下载即用。

基于网格环境下的野外台站观测数据平台.pdf

important 重要10 页 1.309 MB 访问 432.97下载文档
基于网格环境下的野外台站观测数据平台.pdf基于网格环境下的野外台站观测数据平台.pdf基于网格环境下的野外台站观测数据平台.pdf基于网格环境下的野外台站观测数据平台.pdf基于网格环境下的野外台站观测数据平台.pdf基于网格环境下的野外台站观测数据平台.pdf
当前文档共10页 2.97
下载后继续阅读

基于网格环境下的野外台站观测数据平台.pdf

技 术 e-Science 应用 e-Science APPLICATION 基于网格环境下的 野外台站观测数据平台 张耀南1,2 张宝山1,2 陆妤1,2 康建芳1,2 赵雪茹1,2 1. 中国科学院寒区旱区环境与工程研究所冻土工程国家重点实验室,兰州 730000 2. 甘肃省高性能网格计算中心,兰州 730000 摘 要: 数据主要来源于地理上分布的野外台站、空间观测、互联网服务机构的资源环 境数据平台,是地学研究数据与模型模拟的基础,其数据采集、管理、融合与 共享服务是野外台站观测数据平台的主要任务。基于数据来源分散和服务对象 的分布特征,本文给出了基于网格环境中地理上分布的野外台站资源环境数据 平台建设框架和数据汇总、管理、融合与服务的流程,定义和分析了各模块的 关键功能与实现技术,并在Linux环境下,模拟野外台站环境,对数据平台中 数据复制、数据同步、统一服务的关键技术和思路进行了功能性实验,初步建 立了网格环境下野外台站的资源环境数据平台。 关键词: 资源环境数据平台; 野外观测站; Linux操作系统; Grid环境 32 e-Science 2009年 第1期 APPLICATION e-Science 应用 Data Platform of Field Observation Stations Base on Grid Environment Zhang Yaonan1,2, Zhang Baoshan1,2, Lu Yu1,2, Kang Jianfang1,2, Zhao Xueru1,2 1. State Key Laboratory of Cold Soil Engineering , Cold and Arid Regions Environment and Engineering Research Institute , Chinese Academy of Sciences , Lanzhou 730000 , China 2. Gansu High Performance & Grid Computing Center, Lanzhou, Gansu 730000, China Abstract: The Data Platform of Resource and Environmental Science is a foundation of data and model simulation for geography research. The data mainly comes from several field observation stations in distributed locations, spatial observation and some data service sites on the Internet. The data collection, management, assimilation and the sharing service are the main tasks of the data platform. According to the distributed characteristics of the data sources the service objects and new technology of the grid environment, in this paper we discussed the foundation of the data platform of the field observation stations’ Resource and Environmental Science, and the process frame of the data togather with the management, and analyzed the key functions and implementing techniques for each module. Based on simulated the environment of the field observation stations in Linux operation system, we have conducted some functionality tests of the key techniques and pathways for data replication, data synchronization and a uniformed data service on the data platform, and used acquired techniques to build a primary Data Platform of the field observation stations’ Resource and Environmental Science under the grid environment. Keywords: Data platform of resource and environmental science; Field observation stations; Linux operation system; Grid environment e-Science 2009年 第1期 33 技 术 e-Science 应用 e-Science APPLICATION 1.引言 台(以下简称数据平台)必须具 理和信息服务的能力。采用网格 资源和环境的研究中,已布 有实用性、稳定性、可靠性、宜 技术来构建资源环境数据平台, 置了许多野外台站,积累了大量的 扩展性和可移植性和易整合性, 可以有效地将不同野外台站地观 观测数据,但这些数据分散在不同 具备野外台站观测要素的数据规 测数据加以储存、管理并提供高 的野外台站中,数据的管理和使用 范、数据属性管理的元数据标 效服务,降低观测数据的获得成 变得非常复杂。因此,人们希望有 准、所有地理信息的集成方法, 本,提高监测数据的利用率。 一种平台,能整合各个野外台站的 以及对这些信息的获取、处理、 元数据一般被认为是对数据 数据,可以方便地查询、获取、共 存储、分发等所需要的技术和标 的描述,是关于数据集的数据。 享并有效应用这些数据,以减少不 准。针对目前各野外台站已建立 在资源环境数据平台的解决方案 必要的数据访问困难,从而提高数 的数据管理系统,基于网络环 中,元数据已经从一种数据描述 据的利用效率[1]。 境,采用网格技术和元数据技术 与索引的方法,扩展到包括数据 是解决这一空间分布数据集成问 发现、数据转换、数据管理和数 题的理想的方法。 据使用的整个信息管理过程中, 基于野外台站观测位置的地 理分布性,观测数据的实时性、 多样性、长期性和数据量大,以 网格技术,是将分布在不 形成不可或缺的工具和方法之 及各野外台站的数据管理系统的 同地理位置的计算机资源,通过 一,是资源环境数据平台的核心 差异性等特点,要构建的基于网 高速互联网组成充分共享的资源 内容之一。 格环境下的野外台站观测数据平 集成,从而提供高性能的数据管 数据发现应用 数据分析应用 采用Linux 操作系统、基于 发布 接口层 安全认证服务 请求管理服务 中间件层 元数据发现服务 元数据发现服务 复制服务 可视化服务 分析服务 数据服务 通用的和 用户元数据目录 服务器端 档案数据 在线数据 辅助目录 图1 数据平台的体系结构示意图 34 e-Science 2009年 第1期 APPLICATION Linux 环境的网格技术、Oracle 服务器端、中间层、接口层。 e-Science 应用 据视图,并通过一致的方式来访 技术和元数据管理技术,本文讨 图1所示的数据平台的体系结 论了基于网格环境下的地理上分 构中,其中服务器端主要提供数 如图2发现服务的过程所示, 布的野外台站资源环境数据平台 据服务,包括档案数据、本地数 通过网格存储的API和数据平台的 建设和数据汇总与管理的流程框 据、在线网上数据、数据的辅助 网格接口,可以通过检索来找到 架,定义和分析了各模块的关键 目录、通用元数据有关的服务。 存储于野外台站的文件实例,并 功能与实现技术。并在Linux环境 中间件层重点提供元数据的发现 通过网格存储的API来对这些文件 下,模拟野外台站环境,对数据 服务、数据复制服务、元数据复 实例进行远程的读写以及查看属 平台中数据复制、数据同步、统 制服务、请求管理服务、安全认 性的操作,并通过在文件实例存 一服务的关键技术和思路进行了 证服务、可视化服务、数据分析 储服务器建立第三方的传输控制 功能性验证,初步获得了在网格 服务。接口层主要提供数据发 来在不同的存储系统之间进行文 环境下构建野外台站资源环境数 布、数据应用分析、数据发现和 件实例的传输。 据平台建设的关键技术。 数据应用服务。 问数据。 2.3 数据复制服务 2. 数据平台结构分析 2.2 数据发现服务 数据平台中存储的数据是 在网格环境下的资源环境数 分布式的,有时需要的数据分布 据平台中,数据有可能储存在不 于不同的野外台站节点上,如果 在设计这套数据平台系统 同野外台站的存储设备中。如何 每次都要依次从每个节点进行数 时,参考了Globus的五层沙漏模型 访问这些处于特定位置的数据, 据的集合,就使得系统的开销加 和Web Service的模型结构,按照 成为数据平台的关键之一。在这 大,不利于数据的使用。在平台 数据网格的体系结构,将这套资源 里,通过存储系统抽象和网格储 中,通过利用网格服务中的数据 环境数据平台分为如图1三部分: 存API来提供给应用程序一致的数 复制服务功能来将符合一定条件 2.1 数据平台的体系结构 Download 数据平台网格接口 搜索 搜索 元数据 物理的文件名存储位置 发现服务 逻辑文件名 拷贝目录服务 逻辑文件 拷贝位置服务 图2 发现服务的过程 e-Science 2009年 第1期 35 技 术 e-Science 应用 e-Science APPLICATION 应用程序 (8) 需求数据 的属性 (1) (5) (2) 元数据服务 (3) 逻辑文件命名 一个或多个 副本的位置 一个或多个 副本的位置 副本选择服务 (6) 候选的源和 目的信息的传输 (4) 副本管理服务 图3 数据复制过程示意图 (7) 性能测量 和预报 信息服务 的数据进行集合,减少了数据存 如图3数据复制过程的示意图 取的时间、提高访问效率。在数 可见,数据复制服务从与元数据 据复制的粒度上,将文件作为 的集合到服务管理的定位,再到 (3)应 用 程 序 再 将 得 到 的 最小复制粒度。并将相关的元数 复制的选择,最后到信息服务, 逻辑文件命名传送给副本管理 据和所有相关文件的拷贝均归为 中间需要经过图3上的8个步骤, 服务; 元数据配置库中的一个实体,与 分别是: (1)应用程序将所需求数据 “逻辑文件”的逻辑结构。在数 的属性传送到元数据服务中进行 据复制服务中,将相关的逻辑文 检索; 的一个或多个副本的位置再传送 回应用程序; (5)应用程序再将这些副本 (2)元 数 据 服 务 将 符 合 关 客户端API 程序; (4)副本管理服务将该文件 文件实例一起表现成为一个称为 件聚合在一起,称为拷贝目录。 键字的逻辑文件命名传送给应用 发布 的位置发送到副本选择服务中; 分析与可视化 搜寻与显示 管理 浏览与显示 高级元数据服务 元数据检索 元数据注释 元数据浏览 元数据请求 元数据显示 元数据发现 元数据和数据注册 元数据 核心元数据服务 元数据 元数据访问(更新、添加、删除、请求) 元数据服务翻译库 元数据拥有者 台站元数据表 台站元数据表 中心元数据表 图4 元数据管理与服务模型 36 e-Science 2009年 第1期 APPLICATION e-Science 应用 (6)副 本 选 择 服 务 将 候 选 一定的层次结构,通过数据组织 务;数据节点部分主要负责该节 的源以及目的的信息传送给信息 利用这种层次结构来解决网格中 点数据的整理和用户访问该类数 服务; 分布式索引高效检索的复杂性。 据的权限指定工作,同时也对外 (7)并由信息服务将获取这 构建一个支持网格中分布式环境 提供信息服务。它们之间的关系 些副本所需的性能进行测量和预 层次的命名结构和数据模型,通 如图5所示。 报并返回给副本选择服务; 过这种模型结构和与LDAP相关的 如图5所示数据中心和数据节 (8)最后副本选择服务将可 目录层次结构,来组织、复制和 用的一个或多个副本的位置信息 分布目录信息,不用考虑数据是 (1)数据中心通过在数据节 传送给应用服务。 如何存放的,以及是存放在那里 点上的各种监控服务来完成对数 的,形成支持多种方式为应用提 据节点的监控工作,其中包括网 供元数据服务和保持元数据一致 络流量的监控、用户访问数据、 的机制。 各项服务的运行情况等。 2.4 元数据的管理模型 在资源环境数据平台中,使 用了一种索引结构来构造元数据 的体系。利用这种索引结构,可 点之间几个重要的关系: (2)数据节点通过信息同步 2.5 整体分析 功能将数据传送到数据中心。 以解决网格环境下进行元数据的 数据平台系统主要分为数 (3)数据节点通过数据中心 操作,将可能出现的冲突清空, 据中心部分和数据节点部分,数 来完成服务的发现,从而使得客 使得元数据可以保持一致。图4即 据中心部分主要作用是协调各个 户端可以了解数据信息服务是否 为建立的元数据管理与服务的模 数据节点部分之间的信息和用户 存在以及如何与之交互。 型示意图。 权限,并将各个数据节点的数据 如图4所示,元数据服务具有 进行收集,同时对外提供信息服 (4)数据中心可以对数据节 点的设置信息加以调整。 2.6 模块功能说明 数据节点 数据平台内部的模块主要 是由用户管理系统、信息服务系 统、元数据管理系统和数据管理 系统所组成,其功能描述如下: 监控服务 监控服务 信息同步 监控服务 用户管理系统,主要负责对 平台系统中的用户信息、用户权 限以及用户信息同步进行管理。 信息服务系统,主要负责向 外部提供信息服务,这其中包括 了元数据信息服务和数据信息服 务并涉及到了数据与元数据的发 现和分析服务。 数据中心 元数据管理系统,主要是 对于数据平台中用到的元数据 图5 数据中心和数据节点之间的关系 e-Science 2009年 第1期 37 技 术 e-Science 应用 e-Science APPLICATION 的管理、更新、同步、注册和 扩充API接口,来保证第三方数 Oracle Stream利用高级队列技 备份工作。 据传输中的数据安全和并行数据 术,通过解析归档日志,将归档 传输。 日志解析成DDL及DML语句,从而 数据管理系统,主要是负责 数据复制工具选择支持 对于数据库中存储的数据进行有 效的管理、同步和备份工作。 Subscription 的GDMP[5]。 实现数据库之间的同步。这种技 术可以将整个数据库、数据库中的 对象复制到另一数据库中,通过使 3. 系统实现 3.2 实现的关键技术 用Stream的技术,对归档日志的挖 3.2.1 数据同步 掘,可以在对主系统没有任何压力 3.1 系统运行环境 目前存储于数据节点的数据 操作系统采用稳定、性能突 出、安全性好的CentOs[2]。 有关系型和非关系型两种。对于 的情况下,实现对数据库对象级甚 至整个数据库的同步。 非关系数据文件,可以采用Linux Web服务器是包含Servlet 系统中的rsync[6] +ssh shell[7]相 API 2.2和JSP 1.1兼容的Servlet/ 结合的方法来实现这个功能。使 数据复制服务的主要目的是 JSP容器,提供了快捷高效的jsp/ 用rsync通过SSH Shell的安全认证 通过数据复制来降低系统的访问 servlets运行平台的Tomcat。 机制,可以将数据节点中的非关 时间以及节约网络带宽等。复制 底层网格选择支持开放源码的 系型数据文件全部镜像增量传输 技术在运行时刻根据系统的应用 网格基础平台Globus Toolkit[3]。 到数据中心来。在实际操作中, 特征以及用户的访问特征自动将 Globus Toolkit是一个基于开放 配置好rsync和ssh服务后,可以 数据项复制到不同的平台节点, 结构、开放服务资源的软件库, 通过在Linux系统中的crontab来 其实质就是通过数据在系统的流 并支持网格和网格应用,目的是 定时自动完成数据的同步过程而 动,实现系统的整体性能优化。 为构建网格应用提供中间件服务 不用人工参与。 相对于通常的数据拷贝,数据复 对于关系型数据,可以通过 制主要在技术上要完成数据副本 使用Oracle 10g中自带的Stream 创建、数据传输、副本删除、副 技术来完成数据节点与数据中心 本选择、数据一致性管理、安全 之间的关系型数据同步工作。 管理这些工作。 和程序库。 数据库选择加入了对网格的 支持的Oracle10g[4]。 网格存储API使用GridFTP来 3.2.2 数据复制服务 表1 实验环境 38 Center Node-A Node-B 操作系统 CentOS 5.0 CentOS 5.0 CentOS 5.0 网格支持 Globus Toolkit 4.0.3 Globus Toolkit 4.0.3 Globus Toolkit 4.0.3 数据库 Oracle10g Oracle10g Oracle10g GDMP 3.2.6 3.2.6 3.2.6 IP 210.77.67.xx 210.77.68.xx 210.77.69.xx e-Science 2009年 第1期 APPLICATION e-Science 应用 在数据复制中,选择GDMP 数据中心,称之为Center,另外两 据和储存于介质中的非关系型数 (Grid Data Mirroring Package) 台机器被用于模拟野外台站的数据 据的同步工作加以实验验证。 工具,通过GDMP的数据复制过 节点,称之为Node-A和Node-B。它 针对关系型数据的同步工 程:gdmp_register_local_ 们均放置于Internet环境中,具有 作进行验证。在这个方面的实 file、gdmp_publish_catalogue 独立的合法IP地址。表1展示了它 验中,实验目的是使得Node-B 和gdmp_replicate_get来进行数 们的软件环境配置。 的Oracle数据库中的关系型数 据,可以传输到Center的Oracle 据的复制过程;然后通过HTTP Redirection来进行数据副本的目 4.2 实验测试 中。这里使用的是Oracle 10g的 录管理;通过文件替换、增量更 4.2.1 数据复制 Stream功能。 新、日志管理来进行数据副本的 这里以对地下水水位数据的 首先对需要同步的两端数据 同步工作;最后在副本的选择方 时间序列拷贝过程为例,对数据 库做参数调整、设置归档模式、 面,所需要创建的成本模型必须 复制做了功能性的验证。Node-A 设置同步管理员等操作。然后, 要考虑网络负载和数据所在服务 中存放了从2000年1月到2000年 在需要同步的Node端创建Master 器的负载方面。 5月的甘肃兰州的水位的数据文 队列,并建立捕捉和传播进程。 件,Node-B中存放了从2000年6 首先创建Master队列(程序 月到2000年12月的甘肃榆中的水 略去),然后创建捕捉进程(程 从野外台站的观测仪器中如 位的数据文件,其中兰州和榆中 序略去),再创建传播进程(程 何快速有效的将所得数据导入到 可以认为在大尺度上属于同一地 序略去),最后在需要接收同步 数据库中,成为本套系统数据来 点,要进行的实验过程是将这2个 数据的Center端建立应用进程 源中一个重要的问题。在这套方 部分的数据进行复制,形成完整 (程序略去)。 案中,考虑使用JAVA来构建一套 年份的甘肃兰州地区的水位的时 通过以上配置,在启动捕 导入工具,用以实现从原始数据 间序列数据文件存储于Node-B中 捉和应用进程后,在Node端进行 文件导入到Oracle数据库这一过 安装并配置GDMP 3.2.6版本后, 数据库中数据的新增、修改和删 程。这一过程是:从仪器上得到 在Node-A上执行gdmp_register_ 除工作,在指定的时间后,在 的符合规范的数据,将其保存成 local_file –d /var/filedb Center端检查,发现已经得到了 指定格式的数据文件,然后利用 进行对目录文件的注册,然后 Node端的数据,故此功能可以通 导入工具连接Oracle数据库,将 在Node-A上执行gdmp_publish_ 过这种方法来实现。 其导入指定的表中,从而完成数 catalogue来进行目录的发布工 针对非关系型数据的同步 据的导入过程。 作,最后在需要数据复制的机器 工作进行验证。对于非关系型数 Node-B上运行gdmp_replicate_ 据,既可以采用数据复制的办法 get来进行文件从Center复制到 来做,也可以采用别的方式来 Node-B的过程。 做。本文采用的是使用rsync+ssh 3.2.3 数据入库的过程实现 4.实 验 4.1 实验环境 为了模拟野外台站的环境, 的方式来完成非关系型数据的同 4.2.2 数据同步 选用了3台机器做为实验环境来进 在这个功能性实验中,将分 行准备,其中一台机器被模拟用于 别对储存于数据库中的关系型数 e-Science 2009年 第1期 步工作。实验的目的是使Node-A 的非关系型数据每天定时自动同 步增量备份到Center上。 39 技 术 e-Science 应用 e-Science APPLICATION 第一步,在Center的磁盘中,设定一个目录做为信息服务所指定的 SELECT "DSET_META_ 非关系型数据存储目录filedb,其位置为/var/filedb,并根据相应的节 ID","METAATTRIBUTE_ 点创建子目录为/var/filedb/nodea。同样也在Node-A的磁盘中,也为非 CODE","DSET_CODE","META_ 关系型数据设定存储目录,其位置为/var/filedb。第二步,在Node-A中 VALUE","TABLENAME" 配置rsync服务和ssh服务,并可以成功通过Center进行连接。第三步, 在Center上建立一个shell脚本文件,并将文件放入crontab中进行定时 from DP_TGS_DB.V_ME_DSET_ METAINFO_ALL 自动运行。此脚本文件内容如下: #!/bin/sh 5. 总 结 BDIR=/var/filedb/nodea EXCLUDES=/var/excludes 利用本文讨论的网格环境 BSERVER=nodead 下的资源环境数据平台的总体思 export RSYNC_PASSWORD=XXXXXX 路和关键技术,正在构建针对地 BACKUPDIR=`date +%A` 理上分布的野外台站数据节点中 OPTS="--force --ignore-errors --delete-excluded --exclude- 数据的采集、管理与共享系统。 from=$EXCLUDES --delete --backup --backup-dir=/$BACKUPDIR -a" 初步建立的数据平台证明数据平 export PATH=$PATH:/bin:/usr/bin:/usr/local/bin 台的整体结构和各主要功能模块 [ -d /var/emptydir ] || mkdir /var/emptydir 的设计是合理的,获得一些主要 rsync --delete –a /var/emptydir/ $BSERVER::$USER/$BACKUPDIR/ 实现技术是可行的。由于采用了 rmdir /var/emptydir 网格技术、Java技术以及Linux rsync $OPTS $BDIR $BSERVER::$USER/current 系统,使得整个系统结构清晰, 代码复用率提高。后期要在初步 4.2.3 统一服务 建立的实验平台上,研究数据复 为了使整个数据平台能统一的对外服务,在各节点和中心之间,通 制、数据拷贝、元数据管理以及 过使用同步技术,使得平台中存储的观测数据和用户的信息、权限,都 数据应用的关键技术,完成针对 可以在中心和节点之间互相传输,这为资源的整合和数据的安全性和不 野外台站的数据采集、管理和集 间断服务提供了底层支持。 成工作。虽然本文针对野外台站 在实验中,通过在数据库中构建视图的方式,来完成相关数据的数 据表组合,比如元数据视图通过以下代码构建: CREATE OR REPLACE VIEW DATAPLATFORMDB.V_ME_DSET_ 的数据集成与服务,但对类似情 况下的数据管理问题也具有一定 的参考价值。 METAINFO_ALL(DSET_META_ID,METAATTRIBUTE_CODE,DSET_CODE,META_ VALUE,TABLENAME) AS SELECT "DSET_META_ID","METAATTRIBUTE_CODE","DSET_ CODE","META_VALUE","TABLENAME" from DATAPLATFORMDB.V_ME_DSET_METAINFO_ALL1 union 40 e-Science 2009年 第1期 APPLICATION e-Science 应用 参考文献: [1] 张 耀 南,程 国 栋,韦五 周,等. 基 于 曙 光 3 0 0 0 计 算 环 境 的 寒 区旱 区资 源 环 境 数 据 平台建 设 [ J ] . 冰 川冻 土, 2 0 0 4 , 2 6 ( 2 ): 2 2 4 - 2 29 . [2] CentOS. http://www.centos.org/. [3] Globus. http://www.globus.org/toolkit/. [4] Oracle. http://www.oracle.com/. [5] GDMP. http://project-gdmp.web.cern.ch/project-gdmp/. [6] rsync. http://samba.anu.edu.au/rsync/. [7] OpenSSH. http://www.openssh.com/. 收稿时间:2008年12月27日 作者信息 张耀南 中国科学院寒区旱区环境与工程研究所,研究员,博士,主要研究方向 为基于数据、模型、计算的e-Science研究。 张宝山 中国科学院寒区旱区环境与工程研究所,助理工程师,主要研究方向为 数据库与应用研究。 e-Science 2009年 第1期 41

相关文章