行业动态
联系我们

固定电话:021-54660556

技术邮箱:tech@diatre.com

市场邮箱:market@diatre.com

地址:上海市闵行区恒南路399号茸锦科技园A座208

行业动态
当前位置:首页 > 新闻中心 > 行业动态 >

新算法以实现快速、低成本获得染色质高精度结

浏览量:

基因组的三维空间结构的重要性不言而喻,最近首个哺乳动物单细胞染色质调控图谱也初步完成了。
高等真核生物的核内活动基本上都和基因组的三维空间结构息息相关。从基因转录到DNA的复制,DNA的损伤修复等。所以人们非常急切的想知道他们所关心的这个物种、细胞在他们所关心的状态下,基因组三维空间结构特征是怎样的。
传统研究基因组的空间结构可以通过影像学的方法,比如FISH。在组学技术发展起来以后,基于染色质构象捕获技术(3C)的各种技术变体得到了迅猛的发展,其中比较常见的技术就是Hi-C和ChIA-PET。这些技术激活了3D基因组学的爆发。其中Hi-C是无偏性的全基因组检测染色质相互作用,但是它分辨率相对比较低,测序量要求高。ChIA-PET针对特定的介导蛋白,具有高分辨率、测序量较低的特点,但是技术复杂、对初始的细胞数量要求很高,目前应用没有Hi-C广泛

 
由于上述技术复杂度和数据分辨率之间的矛盾,3D基因组学的研究,还难以在类似精准医学人群队列研究中大规模展开,也难以对极少量细胞的样本得到高分辨率的数据。尤其是对于单细胞Hi-C来说,在目前的分辨率水平下,在单个细胞的基因组中是否存在特定的拓扑结构域(TAD)都还存在争议。如果有一种方法,以能够低成本、快速的从极低分辨率Hi-C数据中获得高分辨率的染色质空间结构,就有望解决上述难题。

 
近日,中国科学院北京基因组研究所的张治华研究员团队及其合作者连续发表了两篇论文分别利用了低分辨率的Hi-C结合其他的表观组数据去预测高分辨率的TAD和相互作用(loop)的方法。使得在大样本中,快速、低成本获得染色质高精度结构信息成为一种可能。

 
第一种方法是张治华团队和中国科学院软件研究所的李昂生研究员团队合作的成果,相关工作以Decoding topologically associating domains with ultra-low resolution Hi-C data by graph structural entropy为题发表在Nature Commnunications杂志上【1】。

 
 

 
该方法应用低分辨率的Hi-C预测高分辨率TAD。该方法基于李昂生团队之前发展的结构信息熵理论【2】。张治华、李昂生团队创造性的把Hi-C数据看作是一个相互连接的网络。基于此,他们开发了称之为deDoc(domains of chromosomes)的算法。

 
deDoc的两个重要特征,使得它显著的区别于当前其他方法。
第一、deDoc不需要对数据归一化。也就是说对于Hi-C数据,deDoc可以直接用原始测序数据。这一特征是非常重要的,因为正确的归一化方法对其他的软件来说十分关键,不恰当的归一化往往会得到糟糕甚至是错误的结果,而且归一化原始数据耗时可观。而对于deDoc来说归一化是完全没有必要的,这使得分析速度大大加快。

 
第二、deDoc的高精度预测能力对数据总量的依赖非常低。测试发现,甚至只要少于1%的1kb分辨率数据,就可以获得充分好的染色质结构的预测。他们进一步测试了deDoc在单细胞数据中的功效。他们惊讶的发现,只要把低至十个单细胞Hi-C数据聚合在一起,就可以很清晰的鉴定到类似拓扑结构域的结构

 
这说明,尽管对于单个细胞来说,我们仍然无法确切的知道是否真的存在TAD结构, 但是我们可以肯定的说,这种域结构是非常关键的,以至于只需要少到十个细胞就能够涌现出域结构。这一事实对我们理解染色质结构在细胞群体中的构成是有帮助的。最后,张治华、李昂生团队还发现可以用所谓的一维信息熵去确定任何一套Hi-C的最优分辨率大小,也就是binsize(The length of the bins)。

 
在传统的方法中,人们是通过控制Hi-C连接矩阵中非零数元素的比例这一主观的方法来确定binsize。而利用信息熵,他们发现使得一维信息熵极小值的binsize,对于数据分析来说是最可靠的。这是第一个定量确定合适Hi-C分辨率的方法。由于deDoc的这两个重要特征,使得deDoc可以成为在大的人群队列,以及针对极低量细胞样本进行三维基因组研究的重要工具。
 
第二种方法是张治华团队开发的CISD_loop方法,相关工作早前以Characteristic arrangement of nucleosomes is predictive of chromatin interactions at kilobase resolution为题发表在Nucleic Acids Research杂志上【3】。

 
 

 
deDoc可以识别拓扑结构域,但是对更精细的结构比如染色质之间的相互作用,则需要引入新的方法。真核生物的核小体在基因组上的排布是不均匀的。东南大学的孙啸教授曾经报道过不同的转录因子结合位点附近的核小体排布存在不同的特征【4】。

 
人们很早也就知道蛋白质的结合可以在DNA上形成一种类似于障碍物的效果,使得在进行随机运动的核小体在障碍物附近形成统计上相对比较稳定的排布结构。基于这两个观测,张治华团队猜测染色质的相互作用也会也可能会形成一种特定稳定的障碍体结构,从而使得周围的核小体排布呈现一种特征性的分布。那么如果能够识别这种特性的分布,就可以去预测染色质的相互作用。基于这样的想法,张治华团队开发了一个机器学习模型,利用MNase-seq数据来预测高精度的染色体相互作用位点,然后进一步引入低分辨率的HI-C数据来预测高精度的染色质相互作用。他们通过在特定位点进行高精度的3C实验验证了这一构想。通过欠抽样的实验,他们发现,CISD_loop只需要极少量的Hi-C数据,就可以在1kb的精度上预测染色质的相互作用。这使得CISD_loop和deDoc方法类似,可以成为在大的人群队列,以及针对极低量细胞样本进行三维基因组研究的重要工具。

 
据悉,目前张治华团队正致力于改进CISD_loop,以利用更容易获取的ATAC-seq数据更高效的实现类似功能。

 
温馨提示:上面两篇论文的源代码都可以通过github下载:
https://github.com/huizhangucas/CISD
https://github.com/yinxc/structural-information-minimisation .

 
相关阅读:Delta: 3D基因组多组学数据可视化的三角洲特种部队
 
参考文献:
1. Angsheng Li*, Xianchen Yin, Bingxiang Xu, Danyang Wang, Jimin Han, Yi Wei, Yun Deng, Ying Xiong and Zhihua Zhang* (2018) Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy. Nature Communications 2018. 
2. Li, A. & Pan, Y. Structural information and dynamical complexity of networks. IEEE Trans. Inf. Theory62, 3290–3339 (2016).
3. Hui Zhang, Feifei Li, Yan Jia, Bingxiang Xu, Yiqun Zhang, Xiaoli Li, Zhihua Zhang* (2017) Characteristic arrangement of nucleosomes is predictive of chromatin interactions at kilobase resolution. Nucleic Acids Research V45, 12739 - 12751.
4. Nie, Y., Cheng, X., Chen, J., & Sun, X. (2014). Nucleosome organization in the vicinity of transcription factor binding sites in the human genome. BMC genomics, 15(1), 493.

[打 印]   [关 闭]