人类基因组变异研究新时代

  撰文 十一月

  The Genome Aggregation Database (gnomAD)

  Credit: SciStories

  人类基因组计划(Human Genome Project, HGP)是科学家揭秘人类基因组图谱、为人类遗传以及相关疾病的研究提供了先驱力量以及蓝图的里程碑式工作,被誉为生命科学的“登月计划”。人类基因组既包括蛋白质编码基因,也包括控制这些基因何时表达以及表达到何种程度的调控信息。虽然人类大多拥有相同的基因和调控元件,但潜在的基因序列和地球上的人一样多样化,每个个体的基因组都是独一无二的。

  为了反映这种多样性并以前所未有的规模捕捉大群体个体间的基因变异程度,基因组聚合数据库(The Genome Aggregation Database,gnomAD)应运而生。gnomAD目前已经收集了15,708个全基因组和125,748个外显子组的数据。目前,gnomAD数据库中的大规模数据已对公众开放。

  为了对这一数据的更好的进行补充和应用以及规范化数据分析,Nature上同时刊发4篇文章,从多种角度对gnomAD数据库进行丰富和应用,同时在Nature的子刊Nature Medicine上发表了1篇文章,Nature Communications上发表了2篇相关内容,建立了一个gnomAD数据库文献合集。BioArt编辑部将对gnomAD数据库文章集合进行解析,让该数据库为更多的科学研究服务,为更好的从群体以及个体角度解析基因组变异发掘新的工具。

  01gnomAD数据库一览

  gnomAD数据库中包括由100多名全世界各地的研究人员领导的独立的人类测序研究,经过优化和标准化处理后,将3PB的数据处理成为35TB高质量人类基因组变异数据。gnomAD数据库中的基因组数据包括来自欧洲人、拉丁美洲人和非裔美国人、南亚人、东亚人、德系犹太人和其他人群的外显子和基因组。

  值的一提的是,gnomAD数据库的前身是人类外显子组数据库(The Exome Aggregation Consortium, ExAC),自2016年8月在Nature杂志上作为封面故事报道以来,它已经被超过4000份出版物提及和使用(图1)。

  图1 gnomAD的前身:the human Exome

  但与外显子组数据库相比,gnomAD数据库报告了2.41亿个小的遗传变异(单核苷酸变异和短插入/删除变量)和335,470个结构性变异(至少50个碱基对的DNA重组),与外显子数据库的740万数据内容相比,大大扩增了人类对于小的遗传变异的认识,同时也增加和补充了结构变异的内容(图2)。

  gnomAD数据库团队已经在进一步扩展这个资源,最近发布了包含71,702个基因组的gnomAD 3.0版本。

  图2 gnomAD数据库囊括了比ExAC数据库更多的基因变异同时还包括结构变异

  02gnomAD数据库的新一步扩大

  美国Broad Institute研究所Daniel G. MacArthur研究组以及Konrad J. Karczewski(第一作者)发文题为The mutational constraint spectrum quantified from variation in 141,456 humans,对来自141,456人类个体中得到的125,748个全外显子组和15,708个全基因组测序数据中预测的功能缺失变异进行整合,揭示出影响这些人类蛋白编码基因突变的图谱(图3)。

  图3 对不同人种中大规模外显子组与基因组数据的聚合分析

  使蛋白质编码基因失活的遗传变异是基因功能破坏后产生表型并可供分析的信息来源。对生物体的功能至关重要的基因将在自然种群中失去这种变异,而非必需的基因将容忍基因遗传变异的积累。

  但是由于出现频率较低而且不容易分析,想要预测这种功能缺失型变异需要极为细致的分析以及非常大的样本量。这需要全世界相关研究的组织机构以及科学研究者的通力合作。

  在该文章中,作者们通过对gnomAD数据库中大规模外显子以及全基因组测序数据进行整合,丰富了该数据库的内容。在对测序结果和基因注释内容进行优化和筛选后,作者们确认了443,769个高可信度的预测功能缺失变异。

  在使用人类变异率模型对数据进行改进后,作者们可以根据容忍人类蛋白质编码基因至失活的变异频率,在模型动物和工程编辑的人体细胞中进行验证,对其用以改善常见和罕见疾病基因变异的发现提供了重要工具和数据分析系来源。

  03gnomAD数据库与药物靶点选择

  美国Broad Institute研究所Daniel G. MacArthur研究组以及Eric Vallabh Minikel(第一作者)发文题为Evaluating drug targets through human loss-of-function genetic variation,通过对gnomAD数据库中125,748个人类外显子和15,708个全基因组的预测功能缺失变异的分析,为人类基因敲除研究提供了路线图,也为未来疾病生物学和药物靶点选择的研究提供了指南。

  在该工作中,作者们报告了关于使用功能缺失型变异预测药物靶点的三个关键性发现。首先,即使是不能耐受丧失功能变异的必要基因,也可以作为抑制药物的靶点。第二,在大多数基因中,功能缺失变异非常罕见,因此想要基于基因型确定纯合子或复合杂合子敲除所需要的人类样本量是要进一步提高的。第三,自动化的变异注释和过滤功能非常强大,但是人工处理仍然是确保准确性的关键,也是根据基因型进行重新分类的先决条件。该研究结果为人类基因敲除研究提供了重要思路。

  04gnomAD数据库与结构变异的应用

  美国Broad Institute研究所Michael E. Talkowski研究组在Nature发文题为A structural variation reference for medical and population genetics,为医药研究和群体遗传学提供结构变异的参考。

  前面提到,gnomAD数据库相较于其前身外显子组数据库,增加了结构变异的相关数据,丰富了对于人类基因组变异的认识。

  在gnomAD数据库中,作者们对来自全球不同人群的14,891个基因组的序列的结构变异数据进行了大量的经验评估,为疾病相关性研究、群体遗传学和诊断筛选提供了参考图谱。

  05gnomAD数据库与转录本量化注释

  美国Broad Institute研究所Daniel G. MacArthur研究组在Nature发文题为Transcript expression-aware annotation improves rare variant interpretation,在gnomAD数据库中验证了一种新的变异注释度量,该度量量化了组织间遗传变异的表达水平,并显示出改进了罕见变异解释的效果。

  目前,还没有任何注释工具系统性地将外显子表达的信息合并到对于人类基因组变异的解释中。作者们开发了一种转录水平的注释工具,被称为跨转录本表达比例(Proportion expressed across transcripts)量化了变异体的表达。该注释工具快速、灵活,方便对于任何基因变异体数据文件进行注释和管理,有助于罕见疾病基因诊断的进行。

  06gnomAD数据库与帕金森疾病相关的应用实例

  美国Broad Institute研究所Daniel G. MacArthur研究组与Nicola Whiffin(第一作者)在Nature Medicine发文题为The effect of LRRK2 loss-of-function variants in humans,提供了gnomAD数据库在预测功能缺失变异应用方面的实例。

  已知LRRK2中激酶功能的获得变异可显著增加帕金森病的风险,这表明抑制LRRK2激酶活性有望成为帕金森的治疗策略。预测性蛋白质编码基因功能缺失变体为人类疾病的研究提供了体内模型,并且也可以作为检测治疗药物在临床方面潜在毒性的重要工具。

  作者们通过系统性的分析gnomAD数据库中观察到的141,456个LRRK2基因的预测性功能缺失变体,鉴定出了1455个高度可靠的突变个体。该工作证明了大规模基因组数据库和人类功能缺失变体的表型分析在药物发现中的价值。

  07gnomAD数据库与上游的开放阅读框的研究

  英国帝国理工学院Nicola Whiffin研究组在Nature Communications发文题为Characterising the loss-of-function impact of 5’untranslated region variants in 15,708 individuals,作者们通过利用gnomAD数据库系统地评估了15,708个个体基因组中位于5’非翻译区中基因变异的影响,发现这些变异可能创造或破坏上游的开放阅读框(Upstream open reading frames, uORFs)。

  uORFs是蛋白质翻译的组织特异性顺式调控因子。有研究表明,产生或破坏uORFs的变异可能导致疾病。该研究突出了uORFs变异作为一个未被充分认识的功能分类,有助于对人类疾病发生进行解析,并证明了大规模人群测序数据在研究非编码变异类的力量。

  08gnomAD数据库与多核苷酸变异

  美国Broad Institute研究所Daniel G. MacArthur研究组在Nature Communications发文题为Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes,对gnomAD数据库中的多核苷酸变异(Multi-nucleotide variants, MNVs)进行分析以及对全局突变率的预测和估计。

  多核苷酸变异是个体存在于同一单倍型上的两个或两个以上邻近变异,是临床和生物学上重要的一类遗传变异。然而,现有的工具通常不能准确地对MNVs进行分类,对其突变起源的理解仍然有限。

  在该工作中,作者们利用gnomAD数据库对125,748个全外显子和15,708个全基因组中的MNVs进行了系统性研究。该研究结果证明了单倍型识别的变异注释的价值,并完善了对于全基因组范围内MNVs突变机制的理解。

  为了对gnomAD数据库进行介绍,Nature网站上同步发表了关于此七篇文章的内容简介与新闻推广,Nature还专门发表社论认为这些研究是人类基因组研究的里程碑。gnomAD数据库中大规模的基因组测序和分析工作提供了迄今为止最全面的人类遗传变异数据同时也促进了注释和分析工具的产生,为人们进一步了解人类遗传变异提供了无价的宝库。

  目前gnomAD联盟已经公开了它的数据,该项目对科学的影响将远远超过我们的想象。gnomAD数据库就像之前的外显子组数据库一样将改变我们对个体基因组的理解方式。这将为以前所忽略和遗漏的有关人类遗传变异的信息提供重要的研究工具,并帮助我们更好地理解人群和个体层面上的基因组。让我们拭目以待!

  制版人:珂

  举报/反馈

Copyright © 2020-2035 万达注册 版权所有 TXT地图 HTML地图 XML地图   ICP备********号