“深度学习”揭示了意外的癌症,自闭症和其他疾病的遗传根源
自2003年基因组测序完成以来的十年里,科学家和医生一直在努力回答一个至关重要的问题:是哪些DNA突变导致了疾病?
多伦多大学开发的一种新的计算技术现在也许能告诉我们答案。
一个由Brendan Frey教授领导的加拿大研究小组开发出了第一种基因“排序”方法突变根据活细胞“读取”DNA的方式,揭示任何特定的改变引起疾病的可能性。他们用他们的方法发现了自闭症、遗传性癌症和脊髓性肌肉萎缩的意想不到的遗传决定因素,脊髓性肌肉萎缩是婴儿死亡的主要遗传原因。
他们的研究结果发表在今天的权威期刊上科学。
想的人类基因组是一种神秘的文字,由三十亿字母组成。“在过去的十年里,人们投入了大量的精力来寻找导致疾病的基因组突变,却没有找到理性的方法来理解它们为什么会导致疾病,”弗雷说,他也是加拿大高级研究所的高级研究员。“这是因为科学家们没有办法理解基因组的文本,以及它的突变如何改变文本的含义。”麻省理工学院的生物学家埃里克·兰德(Eric Lander)在他的著名名言“基因组”中抓住了这个谜题。买了这本书。难以阅读。”
弗雷的方法是什么?我们知道书中被称为外显子的部分描述了构成所有活细胞的蛋白质。直到最近,人们才意识到的是,其他被称为内含子的部分包含如何剪切和粘贴外显子的指令,从而决定将产生哪些蛋白质。这种“剪接”过程是细胞将DNA转化为蛋白质过程中的一个关键步骤,而它的破坏已知会导致许多疾病。
大多数关于疾病遗传根源的研究都集中在外显子的突变上,但越来越多的科学家发现疾病不能用这些突变来解释。Frey的团队采用了一种完全不同的方法,研究了提供剪接指令的文本的变化,其中大部分在内含子中。
Frey的团队使用了一项名为“深度学习教授计算机系统扫描一段DNA,阅读基因指令,确定如何将编码蛋白质的部分拼接在一起,并确定将生产哪些蛋白质。
与其他机器学习方法不同,深度学习可以理解令人难以置信的复杂关系,例如生物学和医学生活系统中的那些。“我们的项目的成功依赖于利用最新的深度学习方法来分析最先进的实验生物数据,”Frey表示,他的团队包括来自多伦多大学应用科学与工程学院,医学院和唐纳利的泰国地位的成员细胞和生物分子研究中心,以及微软研究和冷泉港实验室。“我的合作者和我们的研究生和博士后研究员是这些领域的世界领先的专家。”
一旦他们教导了他们的系统如何阅读基因组的文本,Frey的团队使用它来搜索导致拼接出错的突变。他们发现它们的方法正确地预测了94%的遗传罪魁祸首,如良好研究的疾病,如脊髓肌肉萎缩更重要的是,他们对基因突变做出了前所未有的准确预测。
然后,他们推出了巨大的努力,以复杂的遗传支持:自闭症谱系障碍。“随着自闭症,只有几十几个基因肯定会涉及,这些账户对于这种情况的小比例的个人,”弗雷说。
与Sephen Scherer博士的合作,高级科学家和Mistickids和Toronto McLaughlin中心大学的应用基因组学中心,Frey的团队比较了整体发现的突变基因组自闭症儿童的序列,但没有对照组。遵循传统的学习方法蛋白质- 分区地区,他们发现没有差异。然而,当他们使用深度学习系统以根据它们改变剪接的程度来排名突变时,出现了惊人的模式。
“当我们使用我们的方法排名突变时,出现了醒目的模式,揭示了39个新的基因在自闭症易感性中具有潜在作用,”弗雷说。
自闭症只是开始 - 这个突变分度方法准备应用于任何数量的疾病,甚至是个人之间不同的非疾病性状。
胡安Valcarcel华雷斯博士研究员基因组中心的监管在巴塞罗那,西班牙,他并没有参与这项研究,说:“在某种程度上就像有一个语言翻译:它可以让你了解另一种语言,即使完整的命令的语言也会要求你学习基础语法。这项工作为个性化医疗提供了重要信息,这显然是未来治疗的关键组成部分。”
进一步探索
用户评论