研究罕见基因变异在疾病中的作用
随着科学家们致力于通过基因组学进一步个性化医疗,遗传性(可归因于遗传遗传因素的特定性状中所观察到的变异比例)是更准确地了解一个人的DNA如何导致阿尔茨海默氏症、帕金森综合症和各种癌症等遗传性疾病的风险因素的关键。
然而,确定遗传力的过程是乏味的,往往是徒劳的,如遗传变异宾夕法尼亚州立大学生物化学和分子生物学副教授、哈克生命科学研究所系统基因组学中心主任玛丽莲·里奇(marilyn Ritchie)说,可能很难评估。研究通常需要数千名参与者,包括“案例”组和“对照组”组罕见遗传疾病为了产生足够的数据,将一个或一组给定的突变与特定的疾病联系起来,可能需要数万甚至数十万的参与者。
里奇解释说:“利用DNA序列数据,你会得到人类基因组中常见和共有的变异,然后你也会得到罕见的变异基础变化,这些变化是个体独有的,至少在人群中不太常见。”“我们通常对数千人进行研究,但要研究罕见变异,你要么需要数万或数十万人——这是不划算的——要么你需要做一些其他类型的分析来尝试研究这些罕见变异。所以我们正在尝试开发新的算法和工具来分析这些数据。”
研究罕见遗传变异的一种常见方法不是单独分析每个DNA碱基,而是使用软件程序将一个基因中的所有变异“装箱”在一起,并计算出有多少患有某种疾病的受试者在该基因中有任何变异。然后将这些数据与对照组的数据进行比较,以找出在疾病背景下哪些变异可能是重要的。
“这看起来是一种很有前途的方法,”Ritchie说,“但局限性在于,研究人员必须以非常手工的方式对数据进行注释和随后的分类,这是一个非常艰巨的过程——它需要大量的努力,你只能根据你已经掌握的知识或从其他数据源收集到的信息来注释和分类变量,以弄清楚它们是如何组合在一起的。”
因此,Ritchie和她的同事开发了一种名为BioBin的计算机程序,利用从多个公共数据库编译的基因组数据,自动化注释过程。
“我们做了什么?”里奇说,“写一个算法和一个软件包,它将自动way-process所有的序列数据,标注什么基因或基因组序列属于,无论是在编码或监管区域,通道的一部分,在一个进化保守的地区或一个经历自然选择,或者如果它是之间的基因,然后本所有的变异根据这些不同的功能定义。你可以导出这些数据来进行关联测试——比较病例和对照组,看看他们的遗传途径是否不同,如果患有某种疾病的人在某些途径或调节区域或进化保守区域比未受影响的人有更多的变异。”
自开发BioBin以来,Ritchie和她的实验室已经使用它分析了来自dbgap(由国家生物技术信息中心托管的基因型和表型数据库)的几个基因组数据集,此外还使用新发布的1000个基因组第一阶段数据进行了概念验证分析。
“我们使用1000个基因组的数据来比较来自不同大陆的14个祖先群体之间的遗传变异,”里奇说,“由于祖先的差异,应该会有很多变异;我们展示了用我们的工具,你可以找出不同种群之间的基因和途径。
“我们还使用BioBin研究歌歌伎综合征(一种罕见疾病)患者的变异,并将其应用于我们仍在研究的囊性纤维化(CF)数据集,试图弄清楚是否存在潜在的遗传变异,使某些CF患者更容易受到严重的肺部感染,即铜绿假单胞菌感染,这种感染发生在许多CF儿童身上;感染并不会发生在所有CF患者身上,所以似乎确实存在一些遗传或环境易感性,我们正在研究是否存在基于罕见变异的遗传易感性。”
Ritchie着眼于将她的工作成果带给公众的转化研究,她看到了使用BioBin开发的应用程序基因数据个性化医疗——特别是针对癌症患者的化疗药物。
“我的很多合作者都在研究抗癌药物,”Ritchie说,“我们现在正在对这些数据进行一些分析,以弄清楚我们是否能够理解是什么基因变异解释了对不同化疗药物的反应。我们也在做一些与心血管特征相关的工作。我们已经做了传统的分析,以找出解释反应的常见变异,但现在我们正在做基因-基因和基因-环境相互作用的分析——采用系统生物学的方法,不仅研究DNA变异,还研究基因表达变异,并使用BioBin寻找常见变异和罕见变异之间的相互作用。
“我们现在正在努力让软件向公众开放——它在我们的网站上,已经有几个小组下载了它,但我们正在写一篇论文,解释如何使用它,以及它可以做什么。因此,我们未来的工作将是添加额外的数据源,其他存储数据的方法,并将我们的分析扩展到其他与疾病相关的测序数据集。”