新方法将帮助遗传学家识别负责复杂性状的基因
在生物医学研ob欧宝直播nba究、植物育种和无数其他努力中,遗传学家正在寻找导致疾病易感性、产量和其他感兴趣性状的特定基因。从本质上讲,他们是在生物基因组这一巨大的草堆里寻找针。
作为一个参考系,人类基因组由32亿人组成碱基对,估计有3万基因.遗传学家从哪里开始呢?
在过去的15年里,许多人依赖于全基因组关联研究(GWAS)。
伊利诺伊大学作物科学系生物计量学助理教授亚历克斯·利普卡(Alex Lipka)说:“我认为GWAS是一种减少基因组区域大小的方法,这些区域可能包含潜在的性状因果突变。遗传扩大GWAS范围的研究。
为了运行GWAS,科学家们进行了大量的计算统计分析,以搜索遗传密码的差异。DNA中被称为标记的特定变异,表现出最高程度的统计关联,被认为接近对该特征做出生物学贡献的基因。有时,这些相关的标记聚集在基因组的一个特定区域,缩小了“草堆”。
Lipka说,这种方法已经被广泛应用于各种生物中,以确定对关键性状有贡献的主要基因,但它在检测小效应基因或基因相互作用(一种被称为互作的现象)方面存在不足,而这可能同样重要。
他说:“GWAS最先进的统计方法是一次测试一个标记,以确定它与性状的关联强度。”“如果你思考一个特征的真正基因基础,它不仅仅是一个基因控制的东西。多个基因以一种加性的方式促成表型变异,并相互作用。在我们的研究中,我们试图使用一种生物学上更准确的统计方法。我们不仅发现了同时包含多个标记的统计模型,还发现了同时包含多个双向交互效应。”
研究人员想看看他们的新方法,他们称之为SPAEML,是否能准确地检测出与人类阿尔茨海默病和玉米花结构相似的遗传来源的模拟性状的基础;这些特征在一定程度上已经在科学文献中有所描述。使用定制的软件,他们已经免费提供给其他研究人员,以及国家超级计算应用中心的大型计算机,该团队测试了SPAEML是否可以检测数据集中特征的模拟。
Lipka说:“在人类和玉米数据集中,我们都能够识别我们的模拟标记。”“在人类数据集中,我们能够区分附加位点和交互位点。”
这一发现并没有揭示有关阿尔茨海默病的新信息;记住,SPAEML是根据现有的性状遗传结构知识进行测试的。相反,它代表了像SPAEML这样的先进GWAS方法可以检测到导致疾病的多种标志物的概念证明,即使是在很小的方面。研究人员指出,这些标记的集体贡献可能导致可能导致疾病的巨大变化。
尽管遗传学家很清楚,复杂的性状很少由单个基因控制,但直到现在,测试多个标记或它们的相互作用在计算上都太困难了。
NCSA基因组学的技术项目经理、合著者柳德米拉·迈因策尔(Liudmila Mainzer)说:“问题是必须测试的可能性组合爆炸,因为我们正在研究成对的标记。”“该算法需要评估数万、数十万甚至数百万个模型,才能选择最好的一个。这可能需要数年的计算时间,这就是为什么从来没有人做到过。”
该团队花了大约四年时间来开发和改进一种可以处理这种组合爆炸的方法,将数百万个数据点减少到大约15,000个,这是一个SPAEML可以轻松处理的数字。展望未来,研究人员计划在具有未知遗传结构的数据集上释放SPAEML。他们已经与作物育种行业和人类健康研究的合作者合作,启动下一步。
“这项研究真的很难,但它是解决这一科学问题的正确方法。有了超级计算资源,有了优秀的学生,再加上我们自己年轻时的一些鲁莽——谁知道呢,我们可能就能做到。”“根据目前我们得到的反馈,这是非常有益的。”