转录组的复杂性是高等生物的标志性特征,是蛋白质组多样性的主要来源,同时也极大扩充了非编码RNA的种类与功能。除经典的RNA可变剪接之外,不同基因间的分子融合产生嵌合RNA(chimeric RNA),也是转录组复杂性的重要来源。DNA水平的基因重组与RNA水平的非经典剪接事件,包括顺、反式剪接(cis-, trans-splicing)以及相邻基因的转录 “顺读”(transcription read-through),均导致嵌合RNA的产生。嵌合RNA及其融合蛋白产物是多种癌症的关键标志物及治疗靶点,在正常细胞或组织中也发现了多个由顺、反式剪接或转录顺读导致的嵌合RNA,表明转录组多维度的复杂性具有重要的生物学与病理学意义。
近期,清华大学生命学院杨雪瑞课题组通过对大规模RNA测序数据的深度挖掘与分析,发现一类新的RNA嵌合体,即由基因组DNA的双向转录产物融合形成的异链嵌合RNA,因此将其命名为cross-strand chimeric RNA (cscRNA)。该研究成果于2021年7月30日发表于《自然通讯》(Nature Communications),论文题目为“双向转录产物的融合产生异链嵌合RNA”(Identification of the cross-strand chimeric RNAs generated by fusions of bi-directional transcripts),论文链接:https://www.nature.com/articles/s41467-021-24910-2
该研究的创意来源于对已知RNA融合机制的总结:RNA顺、反式剪接以及相邻基因的转录顺读均依赖于两个RNA接合位点在空间上的靠近。事实上,产生环状RNA的back-splicing事件也依赖于RNA 5’端与3’端在空间上的靠近。课题组由此推论:在一段基因组区域内,分别以DNA双链为模版的双向转录产物RNA有很大的窗口在空间上彼此靠近,因此,至少在理论上,两个分子间具备了发生RNA融合,产生异链嵌合RNA(cscRNA)的可能性。
cscMap使用RNA双端测序数据鉴定cscRNA的技术原理
基于以上假说,杨雪瑞课题组开发了针对性的生物信息分析流程cscMap,使用被常规RNA测序数据比对流程排除的“垃圾”数据,系统鉴定异链RNA融合事件,准确发现cscRNA并排除技术噪音与潜在的假阳性。课题组从ENCODE、GEO等大型数据库收集了364套高质量RNA深度测序数据,涉及人、鼠、斑马鱼、线虫、果蝇、酵母、大肠杆菌等多个物种,其中人源数据近300套,覆盖正常组织、原代正常细胞、癌症细胞系等各类样本。cscMap对以上一系列人类样本数据的扫描发现了大量cscRNA,其中可靠性高、在多个样本中重复出现的cscRNA约3000个。在其它物种中,cscMap也发现大量cscRNA,其在物种间的保守性较差,并且随着物种生物复杂度的升高,cscRNA出现频率呈上升趋势。
在人源组织、细胞及其它物种中发现的cscRNA数量
在构建了cscRNA的物种与组织特异性数据库资源后,课题组通过实验方法验证了多个cscRNA在细胞中真实存在,且具有潜在的重要生物学功能,并进一步展开对其表达、来源等特征的深入分析。正如课题所预期的,cscRNA主要来源于RNA水平的分子融合,而不是DNA水平的基因重组。与lncRNA、miRNA等非编码RNA类似,cscRNA在细胞中的表达水平差异较大,具有明显的组织特异性。
cscRNA在各类人源样本中呈现组织特异性
从其来源看,cscRNA多来源于已注释基因及其反义链DNA的对向转录产物,产生cscRNA的两个异链接合位点在基因组上通常非常靠近(10kb之内)。值得注意的是,cscRNA 3’片段的接合位点高度富集于外显子5’端上下游非常窄的区间,但却往往并不恰好位于5’端。这暗示形成cscRNA的异链接合极有可能与pre-mRNA的剪接有关,但并非经典的剪接事件,而是可能与剪接过程的某种异常有关。
形成cscRNA的异链接合位点轻微富集经典的剪接受体位点(AG)及供体位点(GT)(左图),并大量出现于外显子5’端周边(右图)。
总之,该研究对cscRNA的序列、表达、来源、分布等基本特征获得了比较全面系统的认识,通过对异链嵌合RNA的发现与解析,为转录组的高度复杂性展开了新的维度。与此同时,研究成果也引出一系列关于cscRNA的生成、调控、功能的待解决问题,特别是RNA剪接的复杂调控与cscRNA之间的关系、cscRNA共性或特异性的生物学功能等。而通过对cscRNA一系列特征的深入挖掘,本研究为cscRNA的起源和功能提供了有价值的信息,获得了丰富的数据资源,奠定了下一步研究的基础。
清华大学生命学院王雨亭博士、邹沁博士为论文共同第一作者,杨雪瑞为论文通讯作者。课题组其他成员李发金、赵文溦、徐晖等为本研究做出了重要贡献,邓海腾课题组为课题提供了质谱数据分析方面的大力协助。研究工作得国家重点研发计划重点专项、国家自然科学基金委、清华大学自主科研项目的资助。国家蛋白质科学研究(北京)设施(清华大学蛋白质研究技术中心)及清华大学生物医学测试中心下属基因测序与分析平台、生物计算平台及细胞影像平台对本课题各项的分析与实验提供了大力支持。
论文链接:https://www.nature.com/articles/s41467-021-24910-2