年07月,华南农业大学国家生猪种业工程技术研究中心/猪禽种业全国重点实验室吴珍芳教授课题组在国际知名期刊《NatureCommunications》发表题为“Multi-omiccharacterizationofallele-specificregulatoryvariationinhybridpigs”的重要研究成果。该研究利用WGS、BS-seq、ATAC-seq以及RNA-seq技术,系统解析了杂交猪体内等位基因特异性表达的动态模式及其与表观遗传调控机制之间的联系。研究鉴定了个等位特异性表达的基因,发现等位基因特异性表达很大程度上受到其特异性甲基化和染色质开放性的影响;生成了迄今为止规模最大的猪多组学数据集之一,全面表征了猪在多个组织和发育阶段的调控变异信息,对猪的育种、遗传学以及功能基因组学研究具有深远意义。菲沙基因承担了该研究的ATAC-seq和RNA-seq相关工作。
图1文章信息
研究思路
图2研究思路
a-b:中西方猪种“正反交”杂交试验设计
●“正反交”杂交:正交组合(杜洛克猪♀×鲁莱猪♂)与反交组合(鲁莱猪♀×杜洛克猪♂);
●样本收集:两个对应于猪胎儿肌肉纤维形成的发育阶段(40天胎龄、70天胎龄),每个杂交组合中选取三个雌性和三个雄性胎儿,收集其大脑、肝脏、肌肉和胎盘组织。类似地,在初生1日龄(D1)和成年日龄(D),收集三个雌性和三个雄性后代的大脑、肝脏和肌肉组织样本。每种性别的三个全同胞个体为三个生物学重复。
●组学实验:取16个亲本的耳样进行WGS;对所有杂交样本进行RNA-seq(个)、ATAC-seq(个)和BS-seq(48个)。
c-e:分析思路
c.对于杂交后代,基因组测序数据比对到亲本参考基因组上,依据变异位点鉴定后代等位基因的父母本来源。
d.等位基因表达的量化。
e.比较不同组织和不同发育时期的等位基因的表达,鉴定特异性表达(ASE)等位基因。如果母源等位基因的表达水平较高,无论母本是杜洛克还是鲁莱,该基因就被定义为母本POE(ParentalOriginEffect,亲本决定型)基因;如果杜洛克等位基因的表达水平较高,无论其作为母本还是父本,该基因被定义为杜洛克AGE(AlleleGenotypeEffect,等位基因型决定型)基因。
研究结果
1.个性化基因组和转录组注释
为了解决基于杜洛克猪构建的参考基因组所带来的潜在差异,特别是在分析源自杜洛克和鲁莱猪杂交子代的序列reads时,该研究采取了一系列步骤来构建个性化基因组:首先对参与研究的亲代猪进行了基因组测序,并使用GATK检测DNA变异;然后,筛选可用于区分子代双等位基因来源的有效变异位点,并在参考基因组中替换对应碱基。最后更新转录本注释的坐标,以匹配修改后的基因组序列。研究构建的个性化参考基因组,不仅增强了子代样本的比对准确性,还有效降低了由于比对偏好性造成的等位基因丰度统计误差。
2.转录动态和等位基因特异性表达图谱
对于F1杂交猪转录动态,该研究通过全面分析个样本的RNA-Seq数据,揭示了不同组织和不同发育阶段基因表达的多样性和动态特征。通过PCA分析发现大脑的基因表达模式显著区别于其它组织,突显了组织特异性在转录动态中的主导作用。其它组织在次级主成分分析中也显示出清晰的聚类,进一步支持了基因表达模式在各组织间的差异性(图3a-3b)。通过应用edgeR统计模型,该研究发现超过95%的基因在不同发育时期或不同组织内呈现出基因表达量的动态变化。组织特异性基因的鉴定显示,大脑、肝脏、肌肉和胎盘分别有、、和个基因展现出组织特异性表达,如STMN4、APOC3、MYOD1和PLET1,这些基因的表达高度特异,且与组织功能相关联(图3c);发育时期特异性基因数量较少,仅有59、97、89和12个基因在上述组织中呈现出发育时期特异性表达(图3d)。这表明组织特异性表达模式在个体发育早期便已建立且是持久的。此外,该研究还在每个组织中鉴定了27种独特的基因表达模式,其中单调变化模式最常见。
图3杂交子代的转录组动态
同时,该研究构建了等位基因特异性表达(ASE)图谱,并鉴定了总计个亲本决定型(POE)基因和个基因型决定型(AGE)基因,其中脑组织中此类基因数量最多(图4)。POE基因在染色体上的聚类分布提示存在共同的顺式调控机制。在可评估的43个亲本印记基因中,11个为显著的POE,9个基因虽未达到显著水平,但仍然具有父源或母源偏好。研究还发现了17个POE基因在至少一个发育阶段的同一组织中具有明显的表达偏向,被认定为新的POE印记基因。功能分析揭示,父本偏倚POE基因与许多氨基酸和脂肪酸代谢通路关联,而母本偏倚表达的POE基因与转录因子、胆汁分泌及PPAR信号相关。AGE基因在基因组中分布更广泛,其调控机制相对局部化。杜洛克猪偏倚表达的AGE基因与代谢过程相关,鲁莱猪偏倚AGE基因则与免疫反应基因关联,这可能反映了品种间代谢优势和抗病能力的差异。
图4等位基因(POE和AGE)在大脑、肝脏、肌肉和胎盘的分布
3.染色质动态和染色质开放程度对于等位基因特异性表达调控的影响
研究对前述RNA-seq的同一组织样本进行ATAC-Seq,通过PCA分析和聚类分析发现各发育阶段内的组织可以被清晰区分(图5b-5c);组织特异性开放染色质与特异性表达基因的显著重叠,并且组织特异性开放染色质与基因表达模式大体一致(图5e)。例如,管家基因GAPDH在所有组织中有清晰的开放性peak,而对于非管家基因,开放染色质仅限于基因表达的组织中(图5f)。此外,在发育过程中表现出阶段特异性表达的基因中,开放染色质与基因表达模式之间的对应关系也很强。
图5a:ATAC-seq在TSS附近富集;b-c:对所有样本的染色质开放性peaks进行PCA和层级聚类分析;d:ATAC-seq数据的基因组特征注释;e:组织特异性基因的表达和染色质开放性;f:管家基因和一些组织特异性表达基因的ATAC-Seq信号
为了定量评估等位基因特异性染色质可及性是否引起等位基因特异性表达,该研究统计了ATAC-Seqpeaks的等位基因偏向性,将其与等位基因表达偏向性进行比较。结果发现,在个POE基因中,有25个POE基因呈现出父母本决定的染色质开放性;在个AGE基因中,有42个AGE基因也呈现基因型决定的染色质开放性。此外,除了2个POE基因和1个AGE基因,绝大部分基因在等位基因偏向的染色质开放性和基因表达之间表现出正相关。因此,在某些情况下,等位基因特异性表达和染色质开放性表现出相当程度的一致性。例如,ENSSSCG是一个POE基因,其仅在母本等位基因上显示出开放染色质(图6a);ABCB1是一个杜洛克猪偏倚表达的基因,具有AGE效应,其基因TSS附近的染色质也表现出杜洛克偏好的开放性(图6b)。
图6POE基因ENSSSCG和AGE基因ABCB1的ATAC-Seq信号
4.甲基化动态和甲基化对于等位基因特异性表达模式的影响
为了探究甲基化对于染色质开放性以及基因表达的影响,该研究进一步对70天胎龄的4种组织中CpG位点的甲基化水平进行分析,大脑和胎盘组织分别具有最高和最低的整体甲基化水平。在大脑和肌肉中,CpG通常高度甲基化,而在肝脏和胎盘中,整个基因组的甲基化在更大程度上是多变的。同时,启动子区域的甲基化水平普遍较低,并在转录起始位点附近形成明显的低谷。重要的是,启动子区域的甲基化与相应基因表达呈现出显著的负相关,提示启动子甲基化通常抑制基因表达。类似地,所有组织中染色质开放性与甲基化程度之间存在负相关(图7)。在表现出组织特异性表达的基因中,其附近的染色质开放性和甲基化都根据组织呈现出相似的分组模式。例如,在大脑中特异性表达的STMN4基因显示出显著的染色质开放性peak,与其它组织相比,其启动子区域的甲基化水平明显较低。
图7基因表达和染色质开放性与CpG甲基化之间的相关性
研究同时评估了等位基因的特异性DNA甲基化。对于POE基因,研究发现部分基因的表达抑制等位基因上存在较高CpG位点甲基化,支持了高甲基化抑制基因表达的设想。例如,母本印记基因PEG10,在母本等位基因上的5端附近具有高甲基化水平,而其父本等位基因染色质开放程度更高、且表达量明显高于母本等位基因(图8a);对于AGE基因,研究鉴定了35个存在等位基因特异性甲基化基因,其启动子区的甲基化增加,基因表达减少。以PM20D1基因为例,其在杜洛克猪的等位基因TSS附近的高甲基化与鲁莱猪等位基因的低甲基化形成对比,并且鲁莱猪等位基因显示较高的染色质开放性和表达水平(图8b)。最后,研究鉴别了与POE和AGE相关的CpG位点的甲基化区域,这些区域分别关联到数百个基因,例如IGF2R基因的POE甲基化区域与其组织特异性POE表达模式相吻合(图8c)。
图8以PEG10、PM20D1、IGF2R为例,其等位基因特异性表达与染色质开放性和CpG甲基化的关联
小结
本研究运用了遗传与表型显著差异的两个猪品种,通过实施八个正反交实验设计,系统地从四个发育阶段的四种主要组织收集了全同胞样本。通过对这些样本的DNA甲基化、染色质开放性及基因表达的深入分析,揭示了基因表达的组织和发育特异性、等位基因的特异性效应,以及染色质开放性和DNA甲基化对等位基因特异性表达的影响,为猪的等位基因的特异性调控提供了全面表征。
参考文献
QuanJ,YangM,WangX,etal.Multi-omiccharacterizationofallele-specificregulatoryvariationinhybridpigs[J].NatureCommunications,,15(1):.