生物信息学习的正确姿势
NGS系列文章包括NGS基础、在线绘图、转录组分析(Nature重磅综述
关于RNA-seq你想知道的全在这)、ChIP-seq分析(ChIP-seq基本分析流程)、单细胞测序分析(重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析(step-by-step))、批次效应处理等内容。
大约20年前,耗资30亿美元的人类基因组计划绘制出了首个人类基因组草图。随着这项规模宏大、影响深远的基因测序项目的落幕,许多研究者相信他们能够迅速找到导致糖尿病或精神分裂症等复杂疾病的基因。但是他们很快就陷入了僵局,部分原因在于当时的研究忽视了对控制基因在体内表达位置和方式的“开关系统”。例如,正是这种基因调控系统使心脏细胞有别于脑细胞,使肿瘤有别于健康组织。如今,通过将人类2万个编码蛋白质基因的活性水平与数百万条调控DNA序列的变异相关联,一项长达10年的大规模研究已经开始填补这一空白。本周,“基因型-组织表达研究联盟”(Genotype-TissueExpressionConsortium)结束了为期10年的多机构研究工作,于Science、Cell等期刊发布了斥资1.5亿美元的“基因型-组织表达项目”(TheGenotype-TissueExpression(GTEx)Project)最后一期共计15项研究成果,介绍了跨细胞类型和组织的遗传调控变异综合图谱,并分析了这些调控变化如何增加疾病风险和促进疾病特征的发展。据悉,本周发表的15篇最新论文基于GTExV8版本数据集。研究人员对来自名死亡捐赠者49个组织的15,份样本进行了RNA测序,并分析了每个捐赠者的全基因组测序数据。整个研究使用的一种关键方法为基因表达数量性状位点(eQTL)分析,以鉴定影响基因表达的遗传变异以及分析剪接变异数量性状位点(sQTL);其中一篇论文还使用CRISPR分析了罕见病的调控变异。最终,共有五篇论文发表于Science,两篇发表于ScienceAdvances,一篇发表于Cell,五篇发表于GenomeBiology,一篇发表于GeneticEpidemiology,最后一篇发表于GenomeMedicine。图:GTExv8研究样本及数据类型
正如前文所言,科学家们多年以来就意识到,基因组并不仅仅只是编码蛋白质的一系列遗传密码。它同时也是一块巨大的“开关板”,充满了可控制基因活性的DNA序列。事实上,基因组在调控方面的复杂性已极大地阻碍了研究者们对疾病遗传学基础的探索和靶向特定致病性DNA药物的开发。但近年来,一些大型研究也已聚焦于基因调控开关的位置、调控开关所控制的特定基因以及调控开关在体内激活或抑制基因活性的具体部位。为了深入了解基因在人体中的表达方式以及调控方式,美国国立卫生研究院共同基金(NIHCommonFund)于0年启动了“基因型-组织表达项目”(TheGenotype-TissueExpression(GTEx)Project),并在3年提供了对GTEx数据资源访问的GTEx门户网站(