解码人类基因是一个新的开源百科全书的目标
由于一个国际研究团队的努力,一个对人类基因组功能元素(包括基因、RNA转录本和其他产品)进行编目的大型数据库正作为一个开放资源向科学界、课堂、科学作家和公众开放。在一篇即将发表在杂志上的论文中公共科学图书馆生物学2011年4月19日,项目叫做编码(DNA元素的百科全书) - 概述了该团队的持续努力来解释人类基因组序列,以及使用大量数据和资源产生的指南靠近项目。
Ross Hardison,宾夕法尼亚州立大学生物化学和分子生物学教授,同时也是ENCODE项目团队的主要研究者之一,解释说这个项目背后的哲学是科学的开放、透明和跨子学科的合作。ENCODE项目紧随现已完成的人类基因组计划(Human Genome Project)之后,该计划历时13年,旨在识别人类DNA中的所有约2万至2.5万个基因。该计划也是基于开源数据共享的信念,以进一步科学发现和公众对科学的理解。ENCODE项目通过在genome.ucsc.edu/ENCODE上发布数据库,并在encodeproject.org上发布工具来方便数据的使用,从而实现了这一目标。“ENCODE资源已经被科学家用于探索,”哈迪森说。“但真正具有革命性的是,它们也被用于培训生物各个领域的学生。”我们在宾夕法尼亚州立大学的课堂在实验室生成习题集后不久就开始使用基因组变异和功能的真实数据。”
哈迪森解释说,人类基因组中大约有30亿个碱基对,因此对这些信息进行编目和解释是一项艰巨的任务。“我们有一个非常崇高的目标:确定人类基因组中每个核苷酸的功能,”他说。“我们不仅要发现给细胞提供信息和制造蛋白质的基因,而且我们还想知道是什么决定了蛋白质在正确的细胞中,在适当的时间制造。”ENCODE的主要目标是找到控制这种受调控基因表达的DNA元件。”哈迪森解释说,ENCODE的工作是识别人类基因组的功能区域,其中许多是相当深奥的。“人类DNA序列通常被描述为一种语言,但如果没有解释它的关键,如果没有对‘语法’的充分理解,它就可能是一大堆杂乱的字母。”哈迪森补充说,ENCODE项目提供的数据包括蛋白质在何处与DNA结合,以及DNA在何处被附加的化学标记所扩增。这些蛋白质和添加的化学物质是理解人体内不同细胞如何解释DNA语言的关键。
在即将发表的论文中,该团队展示了ENCODE数据如何在解释疾病和因人而异的DNA序列之间的关联——单核苷酸多态性(SNPs)方面立即发挥作用。例如,科学家知道位于MYC基因上游的DNA变异与多种癌症有关,但直到最近,这种关联背后的机制仍是一个谜。ENCODE数据已经被用来证实这些变异可以改变某些蛋白质的结合,导致MYC基因的表达增强,从而导致癌症的发展。ENCODE也使类似的研究成为可能,研究了数千种可能与多种人类疾病易感性相关的其他DNA变体。
该项目的另一位主要调查员,哈德逊-阿尔法生物技术研究所的主席兼主任理查德-迈尔斯解释说,ENCODE项目是独一无二的,因为它需要来自世界各地处于各自领域前沿的许多人的合作。他说:“人们正在以协调一致的方式研究人类基因组的功能。”“这个项目的重要性超越了关于我们作为人类是谁和什么的基本知识,并延伸到对人类健康和疾病的理解。”
ENCODE项目的科学家们还在108种常用细胞系中应用了20种不同的测试,以汇编重要数据。助理教授约翰•Stamatoyannopoulos华盛顿大学基因组科学和医学,另一个主要研究者,解释说,编码项目负责生产许多化验——分子生物学测量程序的活动生化制剂——现在生物学的基础。Stamatoyannopoulos补充说:“该项目还开发了用于处理和解释大规模功能基因组数据的广泛使用的计算工具。”“ENCODE数据的深度、质量和多样性是前所未有的。”
Hardison说,人类基因组的实际蛋白质代码的部分约为1.1%。“这仍然是很多数据,”他说。“并使重要的事情复杂化,基因表达和监管的大多数机制都在我们称之为DNA的”编码“区域之外。”Hardison解释说,科学家们的工具数量有限,其中探索基因组,并且广泛使用的工具是物种间比较。“例如,我们可以比较人类和黑猩猩,并收集一些迷人的信息,”Hardison说。“但很少有蛋白质和其他DNA产品以人类和黑猩猩之间的任何基本途径不同。我们和我们的密切堂司之间的重要区别在于基因表达 - 基因产生的基本水平导致眼睛颜色,高度等特征,对特定疾病的易感性。编码有助于映射基因调控和基因表达中涉及的蛋白质。我们的论文不仅解释了如何找到数据,而且还解释了如何应用数据来解释人类基因组。“
进一步探索
用户评论