华大基因与华为云的“智慧碰撞”,让测序效率稳步提升
支付几百元将你的唾液邮寄,你的基因组序列就会得到分析,所得出的结果不仅可以诊断疾病,还可以用于未来疾病的风险预测。相信已经有不少人耳闻甚至使用过这样的基因测序“黑科技”产品。
近年来,随着基因产业迅速崛起,测序门槛也越来越低。如果把人体比作一台精密的机器,基因测序就好比“人体机器”的“使用说明书”。随着未来基因技术的不断发展,人类或许有能力解读自己的生命图纸,并获得开发人体潜力极限的能力。
目前,基因测序技术在基础研究、技术研发和临床实践上已经得到了大量应用。而这背后离不开云计算、AI、大数据等新一代信息技术的鼎力支持。
事实上,生命科学的研究竞赛,很多时候已经变成了一场“算力”的比拼。好的科研成果通常是基于庞大的计算数据。随着越来越多临床基因检测,如:产前检测、肿瘤检测等,项目的落地,对算力的需求也会逐步增加。那么,该如何为基因测序提供更强的算力呢?
面对海量测序数据,华大基因的痛点如何化解?
作为全球领先的生命科学前沿机构,目前华大基因已经完成HPV检测总数超过420万例,完成耳聋基因检测250余万例,完成无创产前检测510多万例。这些基因测序的流程中,动辄涉及到数万/数十万个基因测序及模型建立,依赖大量的计算和存储资源,随着未来业务量的那一步扩展,将使华大基因的传统IT架构面临一定挑战:
计算资源比较紧张,在使用峰值时,任务经常需要排队等候;
由于基因测序对算力的需求是波动的,通常第四季度的消耗最大而第一季度最少,这会导致服务器的数量无法得到很好的控制。如果选择采购可以满足最大峰值的集群,那么在业务量不能时刻保持高峰时,就会存在很大的成本浪费。而一旦服务器不足,则无法满足业务高峰时的测序任务;
科技服务部门有很多复杂基因组,在各个测序分析的阶段需要借助不同规格的计算资源,线下计算集群往往无法适应快速的扩缩容;
此外,线下集群架构不支持高通量基因测序数据的多任务并行,面对海量基因数据,每个基因测序都是一个极其消耗计算资源的过程,传统的数据存储和分析方式并不能支持高通量测序的需求。
华为云基因容器GCS:20分钟快速部署,成本下降30%
经过多方考量,华大基因选择了华为云作为合作伙伴。据悉,华为云在2018年全球首家推出了以Kubernetes为基础的基因容器服务GCS,能够支持集群自动扩缩容,灵活应对业务增长对资源带来的压力。当测序需要大量资源时,云平台能够快速扩容提升处理能力,解决峰值压力;在业务低谷时,可以释放资源,降低成本。在不同的测序分析阶段,GCS都能为测序企业提供不同规格的计算资源。
华为云基因测序解决方案架构/来源:华为云官网
值得一提的是,在本次项目中,华为云基于轻量级的容器技术,对华大基因常用的测序软件进行了针对性的优化处理。借助容器的高并发度,每个节点上可同时执行多个任务,带来整体计算性能的提升,一举解决了线下集群和公有云服务都难以解决的高通量测序问题,让基因测序数据的计算分析更省时、更轻松。
此外,华为云GCS还具备全自动化测序分析能力,为用户提带来便捷、安心的一站式服务:
借助GCS的生物信息流设计器,再复杂的业务也可以编排到一个流程中,一键搞定测序任务,避免多套系统操作带来的不便;专为国内“生信人”设计的流程控制语法,结构简练、易懂,既满足了流程编写的易用性,同时也保证了流程迁移的方便性;GCS的流程热力图,以非常直观的方式随时了解测序进展,精确掌握资源消耗走势,指导优化方向;还可根据判断条件选择执行分支,满足企业复杂的流程管理需求。
目前,华为云团队已经协助华大基因平滑上云,双方一起完成超过300万核时计算,平稳运行超过100天,实现了基因测序环境快速部署,从过去的3-5天缩短到仅需20分钟。与此同时,双方还通过构建2万核资源池,满足了海量数据、高并发处理的需求。如今,华大基因已可以灵活应对业务波动,按需使用和释放计算资源,在尽可能提升测序效率的情况下,有效降低测序工作的IT成本。