数据分析识别所有SARS-COV-2基因组的“母亲”

SARS-COV-2,Covid-19
凋亡细胞(绿色)的着色扫描电子显微照片大量感染SARS-COV-2病毒颗粒(黄色),从患者样品中分离。在马里兰州德里克堡的Niaid综合研究设施(IRF)拍摄的图像。信用:NIH / NIAID

在分子流行病学领域,全球科学界一直在休息,以解决SARS-COV-2早期历史的谜语。

由于2019年12月检测到第一个SARS-COV-2病毒感染,因此在全球范围内测序了成千上万的基因组,揭示了冠状病毒突变,尽管速度为25每年。

但尽管做出了重大努力,迄今为止还没有人发现首例人传人病例,也就是COVID-19大流行中的“零患者”。找到这一病例对于更好地了解病毒如何从其动物宿主首先感染人类以及SARS-CoV-2的历史是必要的随着时间的推移发生了变异并在全球传播。

天普大学(Temple University)基因组学和进化医学研究所(Institute for Genomics and Evolutionary Medicine)所长苏迪尔·库马尔(Sudhir Kumar)说:“SARS-CoV-2病毒携带的RNA基因组已经感染了全球3500多万人。”“我们需要找到这个共同的祖先,我们称之为祖先基因组。”

该祖基因组是目前感染人类的所有SARS-CoV-2冠状病毒的母体。

在没有零号病人的情况下,库马尔和他的天普大学研究团队现在可能已经找到了辅助全球分子流行病学调查工作的次佳方法。该研究的资深作者三浦早矢香(Sayaka Miura)表示:“我们开始利用从感染个体获得的冠状病毒基因组大数据集,重建其祖先的基因组。”

他们发现所有SARS-COV-2基因组的“母亲”,其早期后代菌株随后突变并传播以支配世界大流行。“我们现在已经重建了祖语基因组并映射了最早发生的突发,其中的最早突变,”预印研究的相应作者,可以在Biorxiv服务器上找到。

在这样做时,他们的工作已经为SARS-COV-2的早期突变历史提供了新的见解。例如,他们的研究报告说,SARS-COV-2穗蛋白(D416G)的突变通常涉及增加的感染性和扩散,在许多其他突变之后发生在Covid -19开始后的几周后发生。“几乎总是发现许​​多其他蛋白质突变,因此其在较高的感染性中的作用仍然难以建立,”研究的高级协作者谢尔盖池塘说。

除了对SARS-CoV-2早期历史的发现,库马尔的研究小组还开发了突变指纹,可以快速识别感染个体或在全球地区蔓延的菌株和亚菌株。

order

为了确定祖基因组,他们使用了突变顺序分析技术,该技术依赖于突变株的克隆分析和SARS-CoV-2基因组中成对突变同时出现的频率。

首先,库马尔的团队筛选了近3万个SARS-CoV-2完整基因组的数据,SARS-CoV-2是导致COVID-19的病毒。他们总共分析了29681个SARS-CoV-2基因组,每个基因组至少包含28000个序列数据基。这些基因组是在2019年12月24日至2020年7月7日之间取样的,代表全球97个国家和地区。

Kumar说,他们以前分析这种大型数据集的尝试并不成功,因为“专注于构建SARS-COV-2的进化树”,“Kumar说。“这种冠状病毒演变得太慢,分析的基因组的数量太大,基因组的数据质量是高度变化的。我立即在来自冠状病毒的这些遗传数据的性质与来自另一个克隆的遗传数据的这些遗传数据的性质之间看到相似之处邪毒,癌症。“

Kumar的小组已经开发并研究了许多用于分析来自癌症患者肿瘤的遗传数据的技术。它们适应并创新了这些技术,并建立了自动追溯到祖先的突变之路。“基本上,在第一次突变之前的基因组是祖先的基因组,”Kumar说。“突变跟踪方法是美丽的,并预测SARS-COV-2的”主要菌株“的系统发育。这是与生物明智的数据挖掘联系的大数据如何揭示重要的模式。”

祖基因组

库马尔的团队发现了所有SARS-CoV-2基因组(proCoV2)的前(母)基因组的预测序列。在proCoV2基因组中,他们发现了170个非同义(导致蛋白质氨基酸变化的突变)和958个同义替换,与在亲缘鼻蝠中发现的一种密切相关的冠状病毒RaTG13的基因组相比。虽然从蝙蝠到人类的中介动物仍然未知,但proCoV2和RaTG13序列之间的相似性达到96.12%。

接下来,他们确定了49个(snv)发生的变异频率大于1%。研究人员进一步研究了它们的突变模式和全球传播。

“突变之树预测了一种菌株的树,”Kumar说。“你也可以先做菌株的树,并预测突变的顺序。然而,这种方式受到序列质量的大大影响。当突变率低时,由于质量低,因此难以区分错误。一个真正的突变。我们所采取的方法对测序误差更加强大,因为分析了基因组的位置对更具信息量。“

早期的时间表出现了

当比较他们的收集中的基因组的后推断的ProCov2序列显示在核苷酸水平没有完全匹配时,Kumar的研究团队知道大流行的开始的原始时间。

“这个祖先基因组的序列不同于一些人所说的参考序列,参考序列是在中国首次观察到的,并被存入了GISAID.SARS-CoV-2数据库。”

最接近的比赛是在2019年12月24日最早获得的采样病毒后12天进行的基因组。在所有采样的大陆中发现了多种比赛,并在欧洲2020年4月20日期间检测到。总体而言,120种基因组Kumar的组分析了所有包含的与ProCov2的同义差异。也就是说,它们的所有蛋白质都与氨基酸序列中的相应ProCoV2蛋白相同。这些蛋白质水平比赛的大多数(80种基因组)来自中国和其他亚洲国家的冠状病毒。

这些时空模式表明ProCov2已经拥有感染,传播和持续存在于全球人群所需的蛋白质序列的完整曲目。

他们根据原cov2病毒的最早突变及其位置发现,原cov2病毒及其最初的后代起源于中国。此外,他们还证明,在中国首次发现COVID-19病例时,与proCoV2存在多达6个突变差异的毒株种群。据估计,SARS-CoV-2每年变异25次,这意味着在2019年12月病例出现前几周,病毒肯定已经感染了人。

突变的签名

由于有强有力的证据表明,在参考基因组中发现的突变之前,有许多突变,库马尔的研究小组不得不提出一种新的突变标记命名法来对SARS-CoV-2进行分类,并通过引入一系列希腊字母符号来代表每个符号来解释这些突变。

例如,他们发现,在首次报告COVID-19之前,μ和α SARS-CoV-2基因组变异就出现了。这强烈暗示了SARS-CoV-2祖先群体中存在一定的序列多样性。2019年12月从中国取样的17个基因组,包括指定的SARS-CoV-2参考基因组,都携带所有三种μ和三种α变异。有趣的是,我们于2020年1月在中国和美国取样了6个含有μ变异而没有α变异的基因组。因此,最早的取样基因组(包括指定的参考基因组)不是祖株。

该研究还预测,在COVID-19的早期阶段,其祖先基因组的后代正在全球传播。它从一开始就准备好了感染。

“这种祖先拥有传播所需的所有能力,”谢尔盖·庞德(Sergei Pond)说。“蝙蝠和人类之间血统选择的证据很少,尽管蝙蝠对冠状病毒有很强的选择。”

搭便车的突变

此外,他们还发现了令人困惑的证据,即总有另一个突变伴随着D416G突增蛋白突变。

“由于其功能性,许多人对穗蛋白的突变感兴趣,”Kumar说。“但我们观察到的是,除了尖峰蛋白外,在基因组中还存在几种额外的变化,这些额外的变化与穗蛋白(D416G)的变化一起发现。我们称之为β一组突变,以及尖峰突变是其中之一。无论我们认为尖刺突变在做什么,最好不要忘记其他突变也可能涉及。或者,这些突变可能只是搭便车,我们尚未说明。“

“也有趣的是,含有穗蛋白突变的基因组经历了许多其他突变。以及我们所谓的ε突变(其中3个)发生在尖刺突变的背景下,它们在非常重要的情况下改变精氨酸残留物蛋白质,核衣壳(n)蛋白质。ε突变在欧洲普及,它们总是用尖峰蛋白质突变发现。因此,epsilon突变在欧洲和亚洲开始了占主导地位。“

业务遍及全球

总共,他们已经确定了七大进化谱系,在大流行开始后出现,其中一些在中国祖先血统的成因后在欧洲和北美出现。

“亚洲菌株创立了整个大流行,”Kumar说。“但随着时间的推移,它是含有epsilon突变的亚毒弹,可能已经发生在中国以外(中东和欧洲首次观察),感染了更多。”

他们的突变分析还确定了北美冠状病毒港口的基因组签名比欧洲和亚洲的普遍存在。

“这是一个动态的过程,”Kumar说。“显然,由于新突变的出现,三个ε,γ和δ涂上的涂抹的涂抹非常不同,我们发现在尖刺蛋白的变化之后。我们需要找出任何功能性质这些突变已经加快了大流行。“

下一步

随着新数据的出现,他们将继续完善他们的研究结果。

庞德说:“目前已经测序了10万多个SARS-CoV-2基因组。”库马尔说:“这种方法的力量在于,你拥有的数据越多,你就越容易知道个体突变和突变对的精确频率。”这些产生的变异,单核苷酸变异,或snv,它们的频率和历史可以用更多的数据很好地说明。因此,我们的分析为SARS-CoV-2系统发育推断了一个可信的根源。”

随着新的基因组报告的发布,他们的研究结果将在网上自动更新(现在有超过5万个样本,可以在网上找到http://igem.temple.edu/COVID-19)。

“这些发现和我们的直觉突变指纹SARS-CoV-2菌株已经克服了严峻的挑战,发展回顾如何,何时和为什么COVID-19已经出现和传播,这是一个先决条件创建补救措施通过科学的努力克服这个大流行,技术,公共政策和药品,”Kumar表示。


进一步探索

SARS-CoV-2的六种菌株

更多信息:Sudhir Kumar等人。在COVID-19大流行中,祖先SARS-CoV-2及其主要分支的进化画像,(2020)。DOI: 10.1101 / 2020.09.24.311845
由...提供寺庙大学
引文:数据分析确定了所有SARS-CoV-2基因组的“母体”(2020年11月5日),并于2021年4月27日从//www.puressens.com/news/2020-11-analysis-mother-sars-cov-genomes.html检索
此文件受版权保护。除作私人学习或研究之公平交易外,未经书面许可,任何部分不得转载。本内容仅供参考之用。
920股票

反馈给编辑

用户评论