2022年03月28日 作者:AG电投厅(Asia Gaming)基因
本文转载科研最前线FSR
大家好,这周分享的文献是2020年10月14日发表在Nature上的“Cell type-specific 3D epigenomes in the developing human cortex”,该文章综合利用多组学联合解析GWAS、eQTL或选择清扫(selective sweep)发掘得到的关键遗传变异,是不可多得的分析模板,具有不错的参考价值(对三维组学和GWAS感兴趣的小伙伴可以系上安全带,我们要发车啦)。
该研究论文由美国加州大学旧金山分校沈音 (Yin Shen) 课题组和神经生物学家Arnold Kriegste, 以及克利夫兰医学中心的统计学家胡明共同发表。
首先呢,要跟大家(大致梳理×)唠一唠(√)三维组学技术的发展。
2009年,Hi-C技术问世,染色质之间的互作及构象得以被初步解析,Hi-C自此成为三维组学领域的基石,但是作为第一代技术,它也不可避免会存在一些缺点:所需细胞量极大、实验过程中不能维持完整细胞核,从而导致染色质构象发生改变。2014年,in situ Hi-C技术作为改良版,可以捕获细胞核内部完整的染色质空间构象,空间还原程度大大提高(见下图)。但是,Hi-C技术在捕获全基因组互作时,如果想达到特定分辨率(如1-5kb),则需要至少1-3 billion的reads,一般实验室难以承担。在此基础上,来自世界各地的研究人员开始对in situ Hi-C进行各种“魔改”。比如,如果想捕获特异位置的染色质互作,可以针对特定区域设计探针,从而成为capture Hi-C;如果想捕获特定蛋白质或因子介导的互作,可以使用对应的抗体,从而成为chip介导的Hi-C(即Hi-ChIP或PLAC-seq);如果想捕捉开放域的染色质互作,则可以借助ATAC-seq的原理,开发HiCAR,等等。
(Rao, S. S. et al, Cell, 2014)
说完了Hi-C,下面来重点介绍这篇文章使用的PLAC-seq(Hi-ChIP)技术。关于PLAC-seq技术,林林总总,纷繁复杂,几句话怕是说不完整个前世今生(后续说不准会专门开个坑,如果反响不错的话,今天主要讲讲分析软件的选择。由于PLAC-seq捕获的是特定因子“富集”后的互作,那么Hi-C的各种balance原则就不太适用(比如VC, KR, ICE这些方法,总体的原则是每个特定基因组区域具有“equal visibility”)。但是特定因子介导的互作,理论上捕获不到没有目标因子binding和与其互作的基因组区域,从而违背了equal visibility假设,所以我们需要对PLAC-seq类的分析进行特殊的建模校正。目前,许多相关分析软件被开发出来,这里按照时间顺序,给大家列举4款,如下图:
MANGO面世非常早,但是在设计之初就只考虑了“peak-to-peak”的互作,基因组中的“peak-to-none”互作无法进行。接下来是Hichipper,这款软件针对富集peak的偏差进行了校正,但是仍然只能分析“peak-to-peak”互作。紧接着时间来到了2019年,这一年,两款重磅级软件问世,一个是UCSD的ren bing(顶级大牛,请自行搜索膜拜)教授实验室开发的MAPS,使用了全新的建模,并首次加入了“peak-to-none”互作的分析;在此之后5个月,另一款软件—Fithichip,由以开发各类软件见长的“ay-lab”发布,该软件最大的特色是为chip-seq peak与PLAC-seq酶切位点之间的距离进行了校正,从而得到更为精准的染色质互作。
(题外话一,关于染色质互作,文献中有loop/contact/interaction,往往容易让人摸不着头脑,我们经过比对文献,认为contact和interaction的含义较为宽泛,其中非常显著或准确的即为loop,非常微弱或者不显著的可能为假阳性;此外,如果你使用的软件鉴定的是“loop”,那么就是loop,如果软件鉴定的是”interaction”,那么就是interaction,毕竟用软件这个事情也是客随主便嘛)。
(题外话二,关于这几款软件的“实战”效果如何,大家可以后台咨询小编,那可是相当专业哦,说不准有具体测试结果可以倾囊传授啊
(题外话三,哎真是啰嗦,关于每一个互作(loop),loop两端的命名是有规则的,举个栗子,如果你们的数据是H3K4me3介导的,那么loop一端有H3K4me3 peak binding的就是anchor bin,没有H3K4me3 binding的就是target bin,这个时候两端的角色是什么呢?哪一个promoter?哪一个是潜在的调控元件,如enhancer呢?)。
好了好了,说了这么一大圈,现在我们终于要绕回到这篇文章了。看文章,首先要从所使用的生物学材料入手(不然为什么CNS文章的第一个figure总是实验整体设计呢?)。这篇文章使用的是人类胚胎中期的大脑中有效分离的放射状胶质细胞(RG),中间祖细胞(IPC),兴奋性神经元(eNs),和中间神经元(iNs)共4种细胞类型,通过细胞特定marker基因,进行流式分选。几种细胞的类型如下(其中RG->IPCs->excitatory neurons代表了完整的分化发育路径):
流式分选之后,作者使用H3K4me3介导的PLAC-seq对上述四种细胞类型的染色质互作分别进行了鉴定,这些loop的基础统计参数如下:
从左至右依次为:loop的总数及loop两端都有peak(AND)和loop只有一端有peak(XOR)的比例;四种细胞类型中loop distance的分布;每个promoter上loop数目的分布统计。
其中维恩图可以看出来loop是具有细胞类型特异性的。而绝大多数loop也是在TAD内部的互作(一般来说,TAD非常稳定,是基因组上较大的基因表达调控单元。如果基因组是一座教学楼的话,那么大致上TAD就是一间间教室,每个教室内部的学生(gene cluster)上同样的课(接受相近的transcription regulation),但是教室与教室之间互不影响)。
分析往往需要依托实体,下一步的分析我们首先依托的实体就是落在promoter上的loop,通过香农信息熵的方法来进行特异性划分(后台回复“信息熵”,向小编咨询怎么使用)。然后观察这些promoter相关基因的表达情况,“bingo”,好像loop越强,表达量也越高?再赶紧看看这些cluster的基因的功能注释,也是非常符合四种细胞各自的生物学特征。那我们就不禁猜测,三维调控(loop)究竟与基因表达有什么样的关系呢?更细致更具体(定量)的方法就需要上场了。
首先,我们对基因表达量和loop强度在细胞类型之间的变化进行相关性分析,可以发现呈中等程度的正相关,看来loop确实是影响基因表达的,继续快马加鞭,看一看loop数目和基因表达量的直接相关,却发现相关程度很低,咦?这是为什么呢?
作者在这里提供了两个猜想:
1)loop是调控元件与基因之间的桥梁,但是调控元件对基因表达量的影响可能是精细的“fine-tuning”调控,而不是大开大阖的那种robust调控;
2)多个调控元件的同时作用可能会对基因表达起到非线性的调控作用。
至于这两个解释,我们要稍微多讲几句,(下面要敲黑板了),生物体在很多层面都是是一个冗余的结构,非常多的机制都会对同一个过程有作用,就比如生命活动的核心--基因表达,会同时受到甲基化、组蛋白修饰,转录因子、RNA、染色质开放程度以及调控元件的多重影响(还有很多潜在和未知的影响),那么如果对这些影响进行定量划分的话,在不同的时间点,不同的细胞类型,不同的生物学过程,甚至不同的基因本身,大家的权重(方差组分)是不同的,权重有高下,那么相关程度自然有高低。
我刚才是不是提到了染色质开放程度和转录因子?对,这两个因素在考虑基因表达调控的时候非常重要,所以,作者对loop的target bin区域(potential enhancer)进行了上述分析:
高度开放,并且结合了四种细胞中非常关键的转录因子(想知道气泡图怎么画吗?大家可以举爪啊,又开一坑,-_-||。。)
关于loop调控和基因表达模式的关系,只有相关性还不够,作者又加了表达趋势分析,其中group 1,2,3趋势均相同,在此不赘述了。Group4和group5有意思了,为什么loop趋势和基因表达是相反的?刚才不是发现是正相关吗,为什么会有这样异类的存在?
这里需要仔细分析了,来,我们把所有因素都列出来仔细分析:
通过右下角的分析,我们可以看出来,loop和基因表达是相反趋势,并且这些loop与enhancer overlap的比例更低,也覆盖了一些抑制性的转录因子,于是,我们猜测:这些loop很可能是结构性的loop,或者抑制性的loop,而非活跃性的enhancer-promoter调控loop。
接下来就到了本文的一个关键点!熟悉三维组学的小伙伴可能已经对super ehancer这个概念耳熟能详了(不熟悉也不要紧,马上来一篇综述https://www.nature.com/articles/ng.3167),本文作者借助类似的理念,通过对每一个promoter的loop强度进行统计,然后全部排序,最终得到super interactive promoter (SIP),这些SIP的特征是什么呢?
从左至右:SIP中发现很多四种细胞的特异关键基因;韦恩图详细展示;SIP的表达量在全基因组中属于第一梯队。
接下来,我们可以发现:SIP相比非SIP,loop的anchor端更富集super enhancer和DNA methylation valley,而target端则更富集super enhancer(转录活性强)。同时右图使用其他几套数据,也验证了SIP更能富集cell type-specific基因。
最后我们来看一下PLAC-seq是如何用来解析GWAS位点的。这里作者选取了7种人类精神疾病进行研究。通过Linkage disequilibrium score regression (LDSC)定量计算每个位点对疾病的遗传贡献,具体结果如下图:
从左到右依次是:loop的anchor bin(promoter),loop的target bin(potential enhancer),远端ATAC peak,cell-type-specific基因(虚线表示无显著富集)。大家可以明显看到,相对于后两者,loop对疾病位点的解释效力要高很多,究其原因,相对于传统的只看基因,或者只看调控元件,loop可以同时把二者有机结合在一起,从一个整体(更真实)的角度去看待问题,当然效力会有提升。
最后,限于篇幅,关于转座子在loop形成中的机制,以及作者新开发的利用CRISPR和SMART-Q联合的实验验证系统在这篇推送中并未涉及,感兴趣的小伙伴可以自行阅读,有问题的话欢迎与后台小编互动哦(ง •̀_•́)ง。
等等,再来点take home message,单细胞时代,从scRNA-seq到scATAC-seq,接着就是single cell的三维组学技术的大爆发,你做好准备了吗?
原文链接:https://doi.org/10.1038/s41586-020-2825-4