ENCODE项目:研究人员对基因组的功能元件进行编目
与疾病相关的大多数DNA改变不会改变蛋白质编码基因,而是控制它们的“开关”。表征这些交换机是编码项目的众多目标之一 - 一个席卷,国际努力创建人类基因组所有工作部件的概要,这些级数没有得到很好的研究或者很好地理解。
功能的绝大多数人类基因组但DNA元素百科全书(Encyclopedia of DNA Elements, ENCODE)项目于2003年启动,旨在改变这一现状。ENCODE项目联盟由包括布罗德研究所(Broad Institute)在内的30多个参与机构组成,有助于确定其潜力生化功能到非编码基因组的大部分。这项工作揭示了表现得像调光开关的元素,巧妙地转动或缩小基因的活动,并影响不同种类的细胞中的基因组的哪些部分。该团队的特征和映射了数千个这些开关和信号的位置。超过30篇关于这些结果的论文在线出现在线自然那科学那基因组研究,基因组生物学本星期。
“通过手中的这些地图,我们可以开始了解为什么土地在被录音区域的遗传变异可以易于倾向于人们疾病,”广泛研究所的高级助理成员Brad Bernstein说,以及马萨诸塞州综合医院病理学副教授(MGH)和哈佛医学院。伯尔尼斯坦也是编码财团的主要调查员。“事实证明,许多遗传研究人员与各种疾病联系起来的许多变体 - 卢布斯,克罗恩病,代谢疾病那高胆固醇并且更多 - 坐在这些区域中,改变基因在特定种类的细胞中如何表达。“
来自布罗德、麻省理工学院和MGH的研究人员发现,变异与自身免疫性疾病如狼疮和类风湿关节炎坐在仅在免疫细胞中活性的地区,而与胆固醇和代谢疾病相关的变体均在肝细胞中活性的区域中静置。
为了生成位于基因内且甚至依偎在基因内的交换机的详细映射,在联盟大使大使高质量和综合数据集中详细介绍了基因组中元素的功能。通过查看超过140多种类型,它们产生了超过1,500个数据集。
布罗德研究所的几个小组对这项工作做出了贡献,包括基因组测序和分析项目(Genome Sequencing and Analysis Program)和表观基因组学项目(Epigenomics Program),它们帮助生成了该项目的许多数据集。术语“表观基因组”指的是在遗传密码之上的一层化学信息,它有助于确定基因在何时、何地(以及在何种细胞中)活跃。这一信息层包括一系列的化学变化,这些变化出现在每个细胞的遗传景观中,并且在不同细胞类型之间可能有显著差异。Broad和其他ENCODE数据收集中心的研究人员开发了一种方法来描述这些跨细胞类型的表观遗传“标记”。
“通过从世界各地汇集计算群体并收集所有的数据,我们可以获得更复杂的问题,”MIT计算机科学和人工智能的主要调查员,“广泛研究所”的副议员Manolis Kellis说实验室(CSAIL),以及麻省理工学院计算机科学副教授。Kellis也是MIT计算生物学组和编码财团的主要调查员负责人。
通过编码项目生成的地图和数据已被公开发布,因为它们已被可用。使用这些地图,伯尔尼斯坦,凯利斯及其广泛的同事:
- 基因上游和下游的公认区域,控制何时和地在何时打开或偏离基因
- 这些控制区域内的小序列模式在区域活动和疾病协会中起重要作用
- 研究了遗传自母亲或父亲的基因变异的行为差异
- 将来自基因组的分组元素分为与类似基因函数相关的类似活动的“社区”
- 拟议候选候选生化功能,用于疾病的大多数遗传变异,但居住在蛋白质编码基因之外
该项目还导致使用各种实验方案对不同实验室和机构的数据集成的新问题。“我们开发了新颖的统计方法和强大的自动化管道,用于统一加工,质量控制,再现性分析和大量不同数据的整合,”Anshul Kundaje表示,联盟的数据协调努力,现在是麻省理工学院的研究科学家计算生物学组。“这导致了整个财团的数据质量非常高标准,以及我们认为将作为更大的科学界的宝贵资源作为自由可用的软件管道。”
手中的表观胶质地图,研究人员现在转到了项目的下一阶段。它们将介绍更多的细胞类型 - 每个细胞类型包含不同的表观簇指令 - 并将开始查看这些开关的接线。
“我们现在拥有这些交换机的基因组位置的地图,但我们没有地图显示哪个基因的开关控制,”伯尔尼斯坦说。“在开关上打开什么?当它开启时,基因或基因上调了?在线有线和连接的方式具有映射,是一个关键目标。”
进一步探索
《人类细胞转录景观》在线发表于自然2012年9月5日。作者是:Sarah Djebali, Carrie A. Davis和其他83人。该论文可以在线获得在doi:10.1038/nature11233。ENCODE的其他新结果可以在以下期刊中找到:自然(6篇论文);基因组研究(18篇论文);和基因组生物学(6篇论文)。
用户评论