基因组组装大致可以分为三步(1)根据序列之间的重叠情况构建出contig,(2)基于二代的matepair文库或光学图谱将contig搭建成scaffold,(3)对scaffold进行排序和调整方向得到最终的准染色体级别的基因组。
目前的三代测序组装能够搞定第一步和第二步。而在将contig/scaffold提升至准染色体水平上,有4种方案可选。一种是基于遗传图谱,一种是利用BioNanoDLS光学图谱,一种是利用近缘物种的染色体同源性,还有一种就是HiC。其中HiC技术是三者中较为简单的一个,不需要高质量的DNA文库,也不需要一个很大的群体,结果也比较准确可信。
HiC的文库构建示意图如下,我们所需要的就是最终双端测序的两端序列之间的距离关系。
目前利用HiC数据进行组装软件有LACHESIS,HiRise,SALSA1,3D-DNA等,这些软件在动物基因组上和简单植物基因组上表现都不错,但是不太适合直接用于多倍体物种和高杂合物种的组装上。主要原因就是等位基因序列的相似性,使得不同套染色体之间的contig出现了假信号,最终错误地将不同套染色体的contig连在了一起。最近在NaturePlants发表的ALLHiC流程就是用来解决多倍体物种和高杂合度基因组的HiC组装难题。
ALLHiC流程一览
ALLHiC一共分为五步(见下图,Zhangetal.,),pruning,partition,rescue,optimization,building,要求的输入文件为HiC数据比对后的BAM和一个Allele.ctg.table。
其中pruning步骤是ALLHiC区别于其他软件的关键一步。因此我专门将其挑选出来进行介绍,红色实线是潜在的坍缩区域(组装时因为序列高度相似而没有拆分),而其他颜色实线则是不同的单倍型(我用浅灰色椭圆进行区分)。粉红色虚线指的是等位基因间的HiC信号,而黑色虚线则是坍缩区域和未坍缩区域的HiC信号。
ALLHiC在这一步会根据提供的Allele.ctg.table过滤BAM文件中等位基因间的HiC信号,同时筛选出坍缩区域和未坍缩区域的HiC信号。这些信号会用于Rescue步骤,将未锚定contig分配到已分组的contigs群。
软件安装
ALLHiC的安装非常简单,按照习惯,我将软件安装在~/opt/biosoft下
mkdir-p~/opt/biosoftcd~/opt/biosoftgitclone