人工智能模型显示了非凡的能力来解释人类基因变异的意义为良性或致病
人类没有两个是相同的,一个生物奇点编码在分子的独特的安排,我们个人的DNA。
变异是生物学的一个基本特征,司机的多样性,和发展的引擎,但它也有黑暗的一面。改变DNA序列和由此产生的蛋白质,构建我们的细胞有时会导致生理功能严重紊乱,引起疾病。
但基因改变是正常的或至少是无关紧要的,哪些预示着疾病?
答案是清楚一些众所周知的基因突变,尽管大幅跳跃基因组测序技术在过去的20年里,我们能够理解其含义,数以百万计的遗传变异发现通过测序仍然落后。
把所有的都弄懂,哈佛医学院和牛津大学的研究人员设计了一个人工智能工具夏娃(进化模型变体效应),它使用一种精密的机器学习来检测遗传变异模式在成千上万的非人类物种中,然后使用它们来预测变化的意义人类基因。
在10月27日发表的一项分析自然,研究人员使用夏娃来评估3600万蛋白质序列和3219多个物种的变异基因。
先前确定的结果表明,256000年人类基因变异目前未知的意义,事实上,被重新归类为良性或致病。
的工具,研究人员说,可以用来增加目前的临床方法用于确定基因变异的意义。这些工具结合使用时,夜可以提高诊断的精度和准确性,预后和治疗选择。
“越来越多的人访问测序的基因组,但理解数据并不总是直截了当。很少有信息甚至对疾病或疾病进展的可能性,”说研究高级作者黛博拉标志,系统生物学副教授HMS Blavatnik学院,共同研究和同事Yarin加牛津大学co-first作者乔纳森·弗雷泽和Mafalda迪亚斯在哈佛医学院和牛津大学范围内随意抽查,帕斯卡。
研究人员强调,夏娃不是一个诊断测试,但其计算能力可以增加当前的临床工具所使用的遗传学家和其他医生做出诊断,预测疾病进展,甚至选择治疗基于某些致病基因突变的存在。
“我们相信,我们的方法可以作为一个额外的工具在当前临床评估和提供了一个强大的新方法来减少不确定性,明确决策,特别是在临床环境中,“是补充道。
事实上,分析表明,夏娃优于其他计算预测模型在预测临床效果和得分也高或比当前标准高通量实验,测试突变对生物功能的影响。
赌注的准确解释遗传变异的意义是巨大的。阅读一个良性变异致病可能导致错误的诊断,进一步引发一连串的测试、焦虑,甚至不必要的医疗干预。相反,曲解disease-fueling变化对一个人的DNA无关紧要或良性可能提供虚假安慰当警惕的观察,可能需要进一步的测试和预防措施。
“我们希望这种方法能产生强大的数据,可以让前线的临床医生做出正确的诊断、预后、治疗决策,”女孩说。
更多的数据,更多的问题
的历史性测序人类基因组在2003年建立了一个引用新测序人类基因组的比较。然而,这个参考基因组并不是一个标准或基线为“正常”的人类基因组。DNA测序的快速增长的数据量呈现参考基因组的标准和随时间变化的流体基线研究人员更好地掌握遗传变异的意义。
有关特定人类基因组疾病发生的变化继续困扰着临床遗传学的领域,因为变异的数量在人口小矮人科学家可以调查。虽然只有一小部分的人口已经测序,研究人员已经看到数以百万计的变异的重要性和意义尚不清楚。这些变异,只有2%被归类为良性,中性或致病。剩下的98%的确定基因变异是目前被认为“未知的意义。”
在人类基因组中,蛋白质编码区域仅占观察650万个突变的数百万涉及单个氨基酸在蛋白质的位置由一个基因。这些所谓的错义突变可能对蛋白质的功能没有影响,或者他们可能使蛋白质功能失调,导致疾病。事实上,研究人员估计可能会有每一个变体的基因组蛋白质position-save致命的邮票90亿人居住在这个星球上。每个个体的基因组有许多变体,与别人相比,人类基因组的引用。
添加另一个转折已经大客户部的阴谋,人类继承来自每个父母对每个基因一两个版本。随着人们年龄的增长,基因可能获得改变,称为体细胞突变。
“有很多方面,一个人不只有一个基因组,”马克说。“你可以有不同的变体基因的一个副本,随着年龄增长,有各种各样的体细胞变异的发生并不是只与癌症发展但神经退化,这两者都是与年龄相关的流程由突变。”
可以肯定的是,有许多疾病有关的基因,研究人员发现突变,携带高临床疾病的风险,比如乳腺癌易感基因1和BRCA2乳腺癌和卵巢癌和肿瘤抑制基因p53对各种癌症。但即使是这些基因显示其他优雅的突变,的意义尚不清楚。
所有这一切创造了迫切需要阐明基因变异的重要性在人类一个过程计算将扮演越来越重要的角色在提供答案,标志着说。
进入人工智能
神经网络的一个显著特征是他们的能力不断地重新评估和更新一个假设的概率随着新数据变得可用。这意味着神经网络可以使用新知识评估的证据,因此可以通过传统方法检测模式和意义错过。
在最近的研究中,研究人员使用一种精密的分析称为非监督机器学习、人工智能的一种形式,不是基于预定义的参数和规则,而是涉及到自适应学习。这意味着,当面对新数据,机器学习算法在识别模式随着时间的推移会变得更加完善。相比之下,在监督机器学习算法从prelabeled学会检测模式数据训练一直监督。
在信息专家给出的一个典型的例子,与猫狗图像和算法告诉哪些之前挑战识别标记的图片猫和狗。非监督机器学习的算法给出了一组猫狗和没有告诉哪些图片。它必须辨别自己的模式。
这两种类型为特定任务提供优势。无监督模式的一个优点是没有偏置他们的学习的机会对食用prelabeled数据。此外,他们可以作为数据变化适应执行更复杂的分析。最新的计算方法用于评估基因变异的意义使用监督培训根据临床标签,这些工具可能偏见,造成膨胀的准确性预测在现实世界中,研究人员说。
“因为这个算法不需要预先知道图像是猫,这图片是这种只需要一群猫和dogs-there无法使用的图像信息,它不应该知道,”女孩说。
正是非监督机器学习的能力来检测新模式从从未遇到的数据呈现这种方法特别适用于分析非人类的基因序列。
从我们的亲戚进化的线索
在这项工作中,研究者转向老希望,通过研究跨多个物种的遗传变异,他们可能会收集线索变异对人类的重要性。
进化往往保持特性,是至关重要的,或者至少是重要的,功能和跨物种的生存。因此,氨基酸安排,复发跨物种的生物标记的重要性,表明他们对生物体的功能和其进化很重要健康。因此,改变这样的高度保守的序列可能麻烦,与致病性有关。
“这些物种从进化论的角度来看还有很长的路要走,还有很多的遗传差异,但总的来说,他们给我们的信息,”马克说。“这就是为什么模型是如此强大的对人类和人类变异模式相关的。”
夜寻找进化保守模式来得出结论。分析数据从140000种,包括濒危和灭绝的生物。
多年来科学家们利用比较遗传学检测区域的相似性在DNA或蛋白质序列画的意思。Harvard-Oxford团队使用了一个神经网络以更大的规模。
培训前夕
2.5亿年的培训后蛋白质序列,夏娃估计每一个氨基酸变异的可能性是良性或致病。确定前夕做出准确的预测,研究人员将其成绩与人类建立突变的意义。这个工具的结果相当符合临床数据,研究小组发现。
接下来,研究人员应用前夕一组3219个人类与疾病相关的基因。前夕做出了正确的选择是否突变致病或良性的所有基因,包括60“临床可行的”基因,研究人员说。当研究人员将夜的表现与其他监督和非监督工具,它显示明显提高预测的准确性。
但是夏娃的预测票价相比之下,如何发现由实际的临床试验,评估的金标准基因突变如何影响生理功能?
要回答这个问题,团队相比前夕对涉及研究突变的临床实验结果的得分在5基因,其中包括各种形式的癌症相关的基因,一些癌症综合症,心律紊乱。夏娃的预测从实验数据与当前标签重叠。
“我们的结果证明是远远超过我们的预期,”马克说。“看来,通过简单的培训模型适合的分布序列在进化我们提取信息,使我们能够做出出人意料的精确预测,对于一个给定的基因变异所带来的疾病风险。”
信任的问题
一个显著的优势,夜有过电流方法是分配一个连续得分,而不是一个二进制的分数。这是因为即使贴上良性或致病基因变异,基因突变如何体现生理上更为微妙。
“整个连续的致病性,”马克说。“连续得分是很重要的预测水平的致病性是什么。突变意味着我要疼我的小脚趾,或者我明天会死吗?”
该工具的另一个重要方面是它分配一个confidence-of-prediction分数gene-by-gene基础上。这可以帮助临床医生了解的程度的确定性预测。换句话说,对于每个基因变异,夏娃告诉专家多少他们可以信任的电话。这是一个诚信的问题,模型的信心,研究人员说。
“我们不是仅仅提供临床医师与一些但也给他们的程度的不确定性,”女孩说。“这是专家可以和在决策过程中使用。该工具可以说,‘我认为变种属于桩,但我从来没有见过这样的任何变体所以把一粒盐。”或者工具也能说,“我认为这属于其他变体这一桩,我看过非常相似的变异,在过去,我看见他们属于这桩,因此我要将它分配给这桩高的信心。的工具和专家之间建立信任是这个工作的一个重要方面。”
展望未来
这种类型的建模仍然处于起步阶段,而且很明显,进化和遗传变异还有很多教我们关于疾病,研究人员说,他们计划延长工作之外的其他的部分基因组蛋白质编码区域。
然而,在不久的将来,紧迫的任务是使临床使用遗传变异我们确实有一些了解。要做到这一点,研究人员已经测序公司联手,通过陈扎克伯格与各种团体合作倡议。
研究小组也参与阿特拉斯的变异影响联盟全球研究工作的任务是绘制整个基因组变化的影响并创建一个综合地图集所有可能的人类基因变异及其对蛋白质功能和生理的影响。工作的最终目标是提高诊断、预后和治疗人类的疾病。
牛津大学的研究合作者包括艾丹·戈麦斯和约瑟夫·敏和哈佛医学院的凯莉·布鲁克。
更多信息:黛博拉痕、疾病变异与深生成模型的进化数据预测,自然(2021)。DOI: 10.1038 / s41586 - 021 - 04043 - 8。www.nature.com/articles/s41586 - 021 - 04043 - 8