谷歌开源DeepVariant 之前的经典检测基因变异法将被颠覆
股友1HC3819263
2018-02-07 10:05:55
  • 点赞
  • 68
  •   ♥  收藏
  • A
    分享到:
在许多科学领域,特别是在基因组学领域,重大突破通常是由新技术带来的。从使人类基因组测序成为可能的Sanger测序法,到首次实现大规模全基因组实验的微阵列技术,新的仪器和工具使我们能够更深入地了解基因组,研究的结果广泛应用于医疗、农业、生态等领域。
  基因组学中最具变革性的新技术之一是高通量测序技术( high-throughput sequencing ,HTS),该项技术在21世纪初首先实现了商业化应用。HTS让科学家和临床医生能够快速、低成本而且大规模地生成测序数据。但是,HTS仪器的输出并不是被分析个体的基因组序列——对于人类来说,这意味着30亿个碱基对(鸟嘌呤,胞嘧啶,腺嘌呤和胸腺嘧啶)组成的23对染色体。相反,这些仪器产生的是大约10亿个短序列,称为reads。每个reads仅代表30亿个碱基中的100个,每个碱基的错误率在0.1-10%的范围内。因此,将HTS输出处理成单一、准确并且完整的基因组序列是一个主要的突出挑战。这个问题在生物医学应用领域尤其重要,这促使GIAB(Genome in a Bottle Consortium)等组织的努力,他们发布了人类标准参考基因组,可用于验证和基准测试,以及precisionFDA挑战赛,这个比赛旨在促进创新,提高基于HTS的基因组测试的质量和准确性。

图:对于基因组中的任何给定位置,在大约10亿reads中有多个reads包含该位置的一个碱基。每个read与一个参考碱基对齐,然后将read中的每个碱基与该位置的参考碱基进行比较。当一个read包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是一个错误。
  图:对于基因组中的任何给定位置,在大约10亿reads中有多个reads包含该位置的一个碱基。每个read与一个参考碱基对齐,然后将read中的每个碱基与该位置的参考碱基进行比较。当一个read包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是一个错误。
  今天,谷歌发布DeepVariant的开源版本(github.com/google/deepvariant),DeepVariant是一种深度学习技术,可以从HTS定序器数据中重构真正的基因组序列,比以前的经典方法具有更高的准确性。这项工作是谷歌大脑团队与Verily Life Sciences合作进行了两年多的研究的成果。DeepVariant将识别变异(variant calling)任务,即基因组中的重构问题转化为适合谷歌现有技术和专业知识的图像分类问题。

谷歌开源DeepVariant,之前的经典检测基因变异法将被颠覆
  以上4个图像都是与参考基因组对齐的实际测序仪reads的可视化。一个关键的问题是如何使用这些reads来确定在两条染色体上存在变异,还是仅存在一条染色体上,还是在两条染色体上都不存在变异。有不止一种类型的变异,其中SNP和插入/缺失变异(insertion/deletion )是最常见的。 A:一对染色体上真正的SNP;B:一条染色体上的缺失;C:两条染色体上的缺失;D:由于错误引起的变异。用这种方式进行可视化时,很容易看出这些变异的差别。
  我们从GIAB参考基因组开始,因为它提供了高质量的真实值(或者当前可能的最接近的近似值)。 使用这些基因组的多个重复(replicate),我们以编码HTS仪器数据的多通道张量的形式产生了数千万的训练样本,然后训练基于TensorFlow的图像分类模型,目的是从生成的实验数据中识别真实的基因组序列。尽管由此产生的深度学习模型DeepVariant没有关于基因组学或HTS的专业知识,但在一年时间里,它已经赢得了precisionFDA Truth Challenge 最高SNP准确率,超越了最优的方法。自那时起,我们进一步将错误率降低了50%以上。

DeepVariant现在作为开源软件发布,以鼓励协作及加速使用这项技术来解决现实世界的问题。为了实现这一目标,我们与Google Cloud Platform(GCP)合作,在GCP上部署了DeepVariant workflow,用户可以在当前的计算环境中探索和评估DeepVariant的功能,同时我们提供了可扩展的基于云的解决方案,以满足即使是最大的基因组数据集的需求。
  DeepVariant现在作为开源软件发布,以鼓励协作及加速使用这项技术来解决现实世界的问题。为了实现这一目标,我们与Google Cloud Platform(GCP)合作,在GCP上部署了DeepVariant workflow,用户可以在当前的计算环境中探索和评估DeepVariant的功能,同时我们提供了可扩展的基于云的解决方案,以满足即使是最大的基因组数据集的需求。
  DeepVariant 将利用谷歌的计算基础架构和ML专业知识来更好地理解基因组,并为研究社区提供基于深度学习的基因组学工具。这是将谷歌技术应用于医疗保健和其他科学应用,并使这些努力的结果广泛可用的目标的一部分。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500