2019年1月25日,由深圳华大生命科学研究院主导完成的瑞丽植物园689种植物基因组高深度测序项目在完全开放获取期刊GigaScience上发表,为万种植物基因组计划(10KP)及数字化地球项目研究起到了极大的推动作用。文章一经发表即被EurekAlert!作为亮点研究报道。
地球生物基因组计划(EBP)是2017年3月由华大 、美国史密森学会等17家科研机构在BioGenomics大会上发起,2018年11月1日于英国正式启动,旨在对地球上所有已知的动植物、真菌和原生生物基因组进行测序,因此也简称数字化地球项目,其研究最终将为推动生物多样性保护和人类社会可持续发展创造新的基础。万种植物基因组计划(10KP)作为EBP领域的核心部分,于第19届国际植物学大会期间在华大启动。
为更好地推动EBP-10KP项目的开展及国家基因库活体库系统化的研究,位于全球34个生物多样性热点区域之内的云南瑞丽市的瑞丽植物园,由于具有丰富的生物多样性资源优越性,作为国家基因库的活体库,正全面的开展全基因组测序到宏观生态长期监测研究,对植物园内所能采集到的所有植物物种进行全基因组高深度测序,实现全球首个全基因组高深度测序的生态型植物园。
本研究共在瑞丽植物园及周边区域采集1093份样品,成功提取其中761份样品DNA,涵盖49目137科(凭证标本保存于国家基因库标本馆HCNGB)。这761份维管植物样品(约689种)的高深度基因组测序,共计产生54 Tb原始数据(数据存于国家基因库数据库:https://db.cngb.org/cnsa),每个样品测序量大约70G。
在此基础上,研究团队从中挑选具有重要科研价值的物种进行完整基因组组装,目前已经完成50个物种的完整基因组组装,其中包括多种濒危保护物种、十几种林木物种以及一些水果及药用食材物种,瑞丽植物园数字化项目为植物基因组研究提供了非常好的基础。该项目在云南省科技厅,云南省科学技术院,德宏州人民政府的支持下,得以顺利开展。
由于缺乏基因组尺度的信息,目前对植物进化及其在系统基因组背景下的多样性的理解是有限的。该项目同时给植物园和生态研究提供了一个新思路:数字化园区内的所有植物及生态系统。
瑞丽植物园产生的大量的植物基因数据将为植物基因组学研究起到很好的推动作用,而基因组特征评估将为植物基因组组装提供大量的基础数据,是10KP项目执行的极好的开端。该研究组装出每个样品的叶绿体基因组,并对叶绿体基因组进行注释。用挑选出的78个编码基因,构建了被子植物系统进化树。761个样品中有257个标本鉴别性状相对完整,已鉴定到种及种下等级,参考叶绿体的序列信息将其余504个样品鉴定到科,进一步的物种鉴定还在进行中。
瑞丽植物园基因组数字化,是第一个集活体库,生态库,数据库为一体的探索性项目。通讯作者刘心强调:“这是对包括10KP在内的巨型基因组项目的实践和数据积累,项目已产生对后续样本采集、测序和组装有用的经验,同时产出的数据也是能够被后续基因组项目使用的。”瑞丽植物园所产生的数据不仅可以用于基因组、线粒体、叶绿体的组装,同时,也是机器学习不可缺少的植物基因信息数据库。