国家战略种质资源保藏与创新系统的e-Science环境.pdf
技 术 e-Science 应用 e-Science APPLICATION 本图片由作者提供 种质资源,特别是野生种质资源是国家社会经济可持续发展不可缺少的条件之 一,是一个国家的战略生物种质资源,直接影响到国家经济未来的发展潜力。 在用于优异基因鉴定和发掘的基因组学研究中,一方面需要依赖全世界已完成 的基因组信息数据,另一方面需要依赖于实验室中利用各种大型仪器设备现实分析 测试的实验结果。同时,对于这种海量数据的分析,还需要不同的学科交叉(植物 学专家、计算机专家、基因组学专家、数学专家等)来相互配合。这样的工作模式 没有一种协同工作的环境是无法完成的。 32 e-Science 2009年 APPLICATION e-Science 应用 国家战略种质资源保藏与创新系统 的e-Science环境 王雨华 李德铢 中国科学院昆明植物研究所,昆明 650204 摘 要: 中国西南野生生物种质资源库是国家大科学工程,其保藏的野生种质资源是 人类社会可持续发展所依赖的战略资源。本文结合国家对战略种质资源的保 护和持续利用研究的需求,利用当前先进的e-Science的科学理念和信息技 术,针对如何快速、有效地鉴定和发掘优异基因这一科学问题,以重要野生 禾本科植物的比较基因组学研究为例,提出实施e-Science应用环境的建设方 案。通过对种质资源库保藏与创新活动的全过程分析,抓住4个关键环节(采 集计划、监测评价、实验分析、创新研究),深入了解每个环节上的信息需 求,合理部署科研工具、数据标准、模型分析和计算过程,为科学家和支撑 服务人员打造一个全面服务于种质资源采集、整理、保存、共享、传递和创 新的软硬件结合、协同工作的信息化科研环境。该项工作的实施将有利于提 升种质资源库的国际地位,为我国在国际生物战略资源竞争做出贡献。 关键词: 种质资源;e-Science环境;建设方案 e-Science 总第五期 33 技 术 e-Science 应用 e-Science APPLICATION The e-Science Environment for Conservation and Innovation of Germplasm Resources of Wild Species Wang Yuhua, Li Dezhu Kunming Institute of Botany, Chinese Academy of Sciences, Kunming, Yunnan 650204, China Abstract: The Germplasm Bank of Wild Species is a national key project of scientific facilitation in China. The wild germplasm resources, including seeds, micro-propagated samples, genomic DNA/cDNA libraries, and mycological spores/bodies, are the basis for human sustainability. Considering the national demands to conserve and sustainably use of wild germplasm resources, the paper proposed to set up an e-Science environment for conservation and innovation of germplasm resources of wild species of plants, animals and microbes with advanced e-Science and information technology. Comparative genomic research of wild gramineae plants was taken as an example, focusing on how to identify and clone useful genes quickly and effectively. By analyzing the process of conservation and innovation of the wild plant germplasm resources, it is proposed to build a Collaboration Environment for the research of conservation technology and utilization of genetic resources, especially on the four critical links, i.e. data collection, evaluation, examination and innovation. It is helped that the international recognition of the Germplasm Bank of Wild Species will be enhanced by making such an initiative, and it will be beneficial for China to be more competitive on the global strategic resources. Keywords: Wild germplasm resources; e-Science environment; Proposal 34 e-Science 2009年 APPLICATION 1. 前言 e-Science 应用 因数目、位置、功能、表达机制 技术,为种质资源的保藏和创新 和物种演化关系的学科。比较基 打造一个科研信息化环境。通过 科学大突破需要大科学工程 因组学的发展与序列数据的积累 对种质资源库在重要禾本科植物 。中国西南野生种质资源库(下 密切相关,庞大的基因组数据信 的比较基因组学研究中涉及到的 )是著 息源源不断地从一系列新技术中 保藏与创新活动的全过程分析, 名植物学家吴征镒院士向国务院 产生,而且未来还会进一步呈指 抓住4个关键环节(采集计划、 建议立项的国家大科学工程,总 数倍增长。探索对这些信息进行 监测评价、实验分析、创新研 投资1.48亿元。2005年3月开工建 解析的方式已成为这一时代生命 究),合理部署科研工具、数据 设,2007年建成并投入试运行。 科学研究最大的挑战之一。人类 标准、模型分析和计算过程,真 其目标是建成国际一流的、较为 科学研究史表明,科学数据的大 正实现一个支撑种质创新的信息 完整的野生生物种质资源保护设 量积累将导致重大的科学规律的 化协同工作平台。 施和科学研究体系。种质资源, 发现。同时,随着大量的新型先 特别是野生种质资源是国家社会 进科学观察研究装置和技术的应 经济可持续发展不可缺少的条件 用,科学研究日益依赖于从海量 之一,是一个国家的战略生物种 的信息中发现新的研究点,实现 [1] 文简称“种质资源库” [2] [4,5] 3. 建设方案 3.1 建设思路 质资源,直接影响到国家经济未 新发展 。综合这些信息能进 如图1,种质资源的保藏与 来的发展潜力。二十世纪中期, 一步帮助我们了解物种形成的机 创新有着一套成熟的工作流程, 美国大豆感染了胞囊线虫病,使 制、基因或基因组上非编码区的 基本分成9个部分:采集计划—— 其大豆生产濒于毁灭,后从野生 功能。这个过程要面对众多不同 野 外 采 集 —— 种 子 清 理 —— 质 大豆种质资源中筛选出抗胞囊线 的数学模型、方程式和算法,涉 量 检 测 —— 入 库 保 存 —— 发 芽 虫病的“北京小黑豆”,育成了 及数学、统计学和计算机学的问 实 验 —— 创 新 研 究 —— 再 生 扩 高产抗病新品种,从而挽救了美 题。因此,离开超算、数据库和 繁——开发利用。根据科研活动 国的大豆产业,并使美国大豆产 计算机,比较基因组研究将寸步 的方式可以分成四个关键环节: 难行。 采集计划、监测评价、实验分析 [3] 量跃居世界第一位 。 全世界共收集各类植物种质 资源已超过600万余份,然而在 和研究创新。在每一个活动部门 2. 建设目标 应用上并没有收到预期的效果, 都有严格的操作流程和标准规 范,在每一个关键环节都需要依 主要原因是如何从丰富的种质资 紧密围绕国家大科学工程 赖原有的科学积累和分析实验设 源中快速、准确地鉴定出育种上 “中国西南野生生物种质资源 备,并产生着大量的数据。因 迫切需要的新的优异基因仍是摆 库”的建设,面向国家对战略种 此,这四个环节内部及其之间如 在科学家面前的一个关键问题, 质资源的需求,在现有实际科 何有效、科学地协作并达到数据 特别是“十一五”期间,我国启 研活动和数据积累的基础上, 积累和分析的目的,是种质资源 动了“转基因生物新品种培育” 针对如何快速、有效地鉴定和发 保藏与创新成功的关键。 重大专项,使这一科学问题更加 掘优异基因这一科学问题,以重 采集是种质资源库所有活 突出。比较基因组学是优异性状 要野生禾本科植物的比较基因组 动的开始,其根本目标是采集具 基因鉴定和发掘的重要工具,是 学研究为例,利用当前先进的 有“3E”特性(珍稀濒危性、特 利用某些基因组图谱和测序获得 e-Science的科学理念、数据挖掘 有性、重要经济性)的重要野生 的信息推测其他生物基因组的基 技术、协同工作技术和网络信息 种质,这是决定保藏什么、创新 e-Science 总第五期 35 技 术 e-Science 应用 e-Science APPLICATION 年底就开始有效地组织了辐射到 包括西南、西北、华中、华北, 以及华南和华东地区部分省市区 20多个单位近300人的团队从事 这种野外采集工作。针对这种工 作方式,如果没有一个可以遵循 的工作规则、没有一个协调配合 的模式、没有一个同步的机制和 平台,不仅无法提高野外采集效 率,而且将会使所有的采集变得 一片混乱。 科学研究高速发展到今天, 兵团作战、协力攻关已成为一种 必然。在用于优异基因鉴定和发 掘的基因组学研究中,一方面需 图1 种质资源库保藏与创新研究结构流程图 要依赖全世界已完成的基因组信 息数据,另一方面需要依赖于实 什么以及是否具有“3E”质量的 上4个关键环节中都需要谋划与决 验室中利用各种大型仪器设备现 关键一步。有计划地对西南重要 策,而谋划与决策一方面需要依 实分析测试的实验结果。同时, 野生植物种质资源进行收集是一 赖于已有的积累数据,另一方面 对于这种海量数据的分析,一方 项长期而艰巨的任务,是一个系 需要科学地积累其新生的数据。 面需要以团队的形式分工、分解 统工程,在开始这项工作前,十 因此急需解决的是如何提供更方 这些工作,另一方面又需要不同 分有必要进行科学的安排、开展 便、强大的数据积累、分析、决 的学科交叉(植物学专家、计算 一系列的前期工作。监测评价不 策工具。 机专家、基因组学专家、数学专 仅证明采集来的物种是什么,而 建成后的种质资源库将在 家等)来相互配合。这样的工作 且要及时说明这些采集来的材料 第一个五年内保存野生种质资 模式没有一种协同工作的环境是 是否符合要求、从哪里来、目前 源达到6450种66500份(株), 无法完成的[5]。随着计算机信息技 状况如何等,这是决定是否保存 十五年内将达到19000种190000 术的发展,信息化的协同工作环 入库的第一步。实验分析是对采 份(株)。对于这种用于活体保 境更加有效地促进了这种研究模 集来的材料做一个全面的清理和 藏的野外采集,这是一件极其艰 式的发展。 体检分析,是决定是否能够按标 巨的任务,因此种质资源库联系 准规范长期保藏的关键。研究创 了国内外相关科研院所和大专院 新就是保藏的最终目标所在,这 校的力量,一方面与具有野外采 正像上文中所提到的,比 不仅包括着本文中所提到的应用 集实力的全国各地的科研院校建 较基因组学的研究已将研究手段 基因组学进行优异性状基因的发 立紧密的合作关系,另一方面招 紧密地与数据库和信息化结合起 掘,而且涵盖了其它一切对种质 聘一些具有致力于国家战略种质 来。比较基因组学研究中要利用 资源开发利用的创新活动。在以 资源保护的青年志愿者。从2005 FAsTA、BLAST和CLUSTAL W 等序列 36 3.2 技术路线 e-Science 2009年 APPLICATION e-Science 应用 比对工具,在其序列分析时要面 基于已经积累的大量参考型 这种异地的为同一目标的参与必 对众多不同的数学模型、方程式 数据,在进一步了解用户需求的 须有一个协同的工作环境。本项 和算法,涉及数学、统计学和计 基础上,优化数据结构,修订数 建设主要是基于现有的网络环境 算机学的问题,因此,首先大型 据质量标准;在严格遵循原始分 和信息数据,支持科研人员在完 仪器设备、超级计算机及数据库 类体系的基础上,针对比较基因 成合作科研项目过程中的相关工 是该信息化环境最直接解决的问 组学研究中对研究材料的特殊需 作。支持虚拟组织的创建、运 题。基因数据分析的结果来源于 求,开发数据管理平台,研制数 行、管理、维护直到销毁。科研 微观,对其真实性的验证仍需要 据挖掘工具,为用户提供一个科 人员以虚拟组织为单元进行灵活 该物种自然环境下的性状评价, 学、便捷的计划和决策工具。 的组合,提供面向虚拟组织的权 因此,对保存的种质资源进行资 限管理。支持一个虚拟组织当中 源评价、多样性、种子生理、生 2)野生种质资源监测评价体系的 的成员便捷、高效地共享和协同 长发育规律、分子育种及遗传多 建设 开发各类数字化文档,协助科研 样性的研究仍是信息化环境必不 有效评价野外种质资源的状 可少的环节。所有的科学研究和 况是种质资源创新的重要依据, 实验分析必须落实到实物材料 根据野外生长状态的特殊生境和 4)种质资源创新研究体系的建设 上,特别是材料的科学选择是最 优良性状,可以有效地判断优异 种质资源创新主要是利用现 终科学研究成败的关键,因此, 基因的存在状况。通过生物地理 代分子生物学、基因组学、蛋白 重要野生植物资源的科学采集是 学的研究,可以为比较基因组学 质组学、谱系分析、数量遗传学 信息化环境中根本解决的源头。 研究中的遗传、演化提供依据。 和分子标记等研究方法和手段, 以鉴定和发掘优异性状基因 另外,种质资源库中一项重要的 对保存的种质资源进行资源评 为最终目的,围绕开展重要禾本 工作就是如何有效地监测物种种 价、多样性、种子生理、生长发 科野生植物的比较基因组学研究 质资源保存过程中的状态,从而 育规律、分子育种及遗传多样性 全程的科研活动,从重要禾本科 有效地评价该种质保存的质量状 的研究。在这些研究中涉及到对 野生植物种质资源收集、保藏、 况和优异基因生存能力。该项工 各类大型仪器设备的利用以及海 监测,到实验室中的分析测试和 作主要涉及到3个阶段:保存前期 量数据的产生和应用,因此,本 海量数据的分析挖掘,充分利用 的基本信息的记载、保存过程中 项内容主要是仪器设备的数据标 数据挖掘技术、协同工作技术、 各种保存条件和生理状况数据的 准编制、数据的采集方法、数据 计算机网络技术等,通过编制数 收集、通过一定的评价模型进行 的提交标准和模型工具的开发。 据标准、建立硬件应用接口、设 评价。主要任务是仪器和传感器 计模型工具等手段,从数据、设 如何与平台系统有效对接,从而 备、应用3个水平上,分别建立 进行监测数据的记录,并通过模 应用体系,从而搭建一个种质资 型的开发进行质量状况的评价。 源创新活动的协同工作的信息化 环境。 4. 主要任务和内容 1)采集计划和决策工具的研发 e-Science 总第五期 人员组织开展各类科研活动。 5. 讨论及前景 中国西南野生生物种质资源 库e-Science环境系统的建设是国 3)种质资源协同工作体系的建设 内外关心和关注该区域的人们的迫 无论是种质资源的采集、保 切需求,是提高种质资源保存质量 藏,还是利用种质资源进行比较 和效率的必然,是节约科研和传递 基因组学研究,多个科学家或多 成本的最终选择。种质资源库的保 个研究单位的参与都是必须的, 存根据不同的材料有着复杂的保存 37 技 术 e-Science 应用 e-Science APPLICATION 形式,有些是人们无法亲自接触的 关键环节上突出信息化手段的应 一步显示我国在种质资源保藏和 极端环境,有些是需要严格超净或 用,从而有效地实现国家战略种 创新方面的先进地位和作用。 超静的保存场所而不允许人们经常 质资源的保藏与创新。 近十多年,水稻的研究蓬 干扰和接触,有些是由于数量的巨 人类科学研究史表明,一 勃发展,目前其测序工作已经完 大而靠人们手工无法完成的监测和 方面,科学大突破需要大科学工 成,通过拓展特别是禾本科更具 监视,这就急需借助当前高度发达 程;另一方面,科学数据的大量 代表性的野生近缘植物的比较基 的信息化技术。 积累将导致重大的科学规律的发 因组学研究,可以将禾本科诸基 随着中国西南野生生物种质 现。本项目选择中国西南野生生 因组整合成一个“大禾本科基因 资源库建设的不断推进和信息化 物种质资源这个国家大科学工程 组”。继水稻基因组 [6、7] 之后, 手段的应用,目前种质资源库已 作为研究对象,将大科学工程与 另外一种具有C4光合作用的禾本 设计和建设了用于各个工作活动 信息技术结合起来,以科学研究 科作物高粱的全基因组也已完成 的数据库,并进行了很好的数据 中的强强结合的手段,来保藏和 了测序 [8] 。目前,美国正在进行 积累。但是,若真正实现种质资 研究国家的战略种质资源,具有 玉米基因组的测序,预计今年将 源库在质上的提升和飞跃,必须 重要的战略意义。 发布测序结果。今年可望完成基 对种质资源在保藏和创新活动中 中国西南野生生物种质资源 因组测序的第4种禾本科植物是 存在的如何做科学的采集计划、 库已经成为世界上除挪威诺亚方 谷子。在国家“十一五”启动的 如何提升数据质量、如何评价野 舟种子库和英国皇家植物园之外 “转基因生物新品种培育”重大 生资源状况、如何引入模型进行 的第三个保存世界重要树种种质 专项中,以禾本科作物为主的水 计算等问题进行解决,这是目 资源的机构,在大家还都停留在 稻、小麦、玉米占了5个品种中的 前种质资源库急需做好的关键环 数据库的水平上时,若我们能以 3个。因此,重要野生禾本科植物 节,这种解决的最好办法就是以 一个全面的信息化系统来考虑和 的比较基因组学研究是一个理想 e-Science的理念打造一个信息化 建设,将比较基因组学通过信息 的模式体系,可以保障该方案的 的工作环境,在采集计划、监测 化的科研环境灵活、全面地用于 成功实施,将是我院科学研究环 评价、资源共享、创新研究这4个 鉴定和发掘优异基因之中,将进 境信息化的一个重要案例。 参考文献: [1] 聚焦中国“大科学工程”.http://www.investzj.com.cn/ 生物种质资源库. 中国科学院院刊,2006,21(1): sanji.asp?id_forum=008324,2004. 79-81. [2] 中国西南野生生物种质资源库.http://www.genobank. [4] 桂文庄.什么是e-Science?.科研信息化技术与应用, org/,2008. 2008,1(1):1-7. [3] 李德铢,娄治平.履行国际公约,建设中国西南野生 [5] 南凯,董科军,马永征,等.支持e-Science的协同工 38 e-Science 2009年 APPLICATION e-Science 应用 作环境.科研信息化技术与应用,2008,1(1):35-40. [9] Paterson, A. H., Bowers, J. E., Bruggmann, R. et al. The [6] Yu, J., et al. A draft sequence of the rice genome (Oryza Sorghum bicolor genome and the diversification of grasses. sativa L. ssp. indica). Science,2002,296: 79-92. Nature, 2009, 457: 551-556. [7] Sasaki T, Matsumoto T, Yamamoto K, et al. The genome [10] Xiao, J.H., Grandillo, S., Ahn, S.N., McCouch, S.R., sequence and structure of rice chromosome 1. Nature,2003, Tanksley, S.D., Li, J.M., and Yuan, L.P. Genes from wild rice 420:312-316. improve yield. Nature,1996,384:223-224. [8] Chen S-L, Li D-Z, Zhu G-H, et al. Poaceae. In: Wu ZY, Raven PH, Hong DY. (eds.) Flora of China. Beijing: Science Press, and St. Louis: Missouri Botanical Garden Press,2006,22: 1-730. 收稿时间:2009年3月29日 作者信息 王雨华 中国科学院昆明植物研究所,博士,研究员,研究方向为植物资源、科 学数据库及其应用环境等。 李德铢 中国科学院昆明植物研究所,博士,研究员,博士生导师,中国西南野 生生物种质资源库项目总经理,研究方向为植物分类、分子系统发育、 生物地理学和生物多样性保护等。 e-Science 总第五期 39

国家战略种质资源保藏与创新系统的e-Science环境.pdf




