人类基因组中有四分之一到三分之一的序列被转录成pre-mRNA,但在去除内含子后,总共只有约1.9%的基因组序列被整合到成熟的mRNA中。除了蛋白质编码基因和公认的RNA基因(例如rRNA,tRNA和snRNA)之外,其余大部分基因组都被转录成非编码RNA,尽管水平很低。在过去的十年中,关于长非编码RNA(Long Non-coding RNAs, lncRNAs)是否有功能的问题一直存在激烈的争论。这场争论的一个极端宣称“所有的转录本都是有功能的”,其反对者并不否认功能性lncRNA的存在,取而代之的是,他们坚持认为真核基因组会产生大量的“垃圾”RNA,尽管确实存在部分功能性lncRNA,但大多数转录是无功能的。在这场辩论中,有人提出垃圾RNA和功能性lncRNA之间可能存在某种关系。
近日,来自加拿大多伦多大学的Alexander F. Palazzo团队和美国国立卫生研究院Eugene V. Koonin团队在Cell杂志上合作发表了一篇题为"Functional Long Non-coding RNAs Evolve from Junk Transcripts”的文章,作者们提出功能性lncRNA可能会通过类似于建设性中性进化(constructive neutral evolution, CNE)的机制从大量非功能性垃圾RNA中演化而来,因此,只有那些产生大量垃圾RNA的生物将产生许多功能性的lncRNA。
1, 真核生物的进化动力学促进垃圾RNA的产生
在基因组功能的讨论中,特别是在涉及非编码RNA时,人们经常忽略真核生物,尤其是多细胞形式是在弱选机制下进化的。这些生物的有效种群规模(effective population sizes)较小,导致的直接结果是其基因组的进化选择相对较弱,并以遗传漂变(genetic drift)为主。为了使突变体在这些生物体中处于正向或负向(纯化)选择之下,必须分别显着提高或降低生物体适应性。据估计,只有不到10%的人类基因组DNA在可度量的纯化选择下进化,剩余的基因组以中性方式进化,因此被视为无功能的垃圾。
复杂生物演化特征的弱选机制具有多种含义。首先,在弱选和强漂变条件下,功能性lncRNA其产物需要产生足够的益处,任何减少其数量,扭曲其结构或破坏其与特定靶标相互作用能力的突变将会大大降低生物体的适应性,从而清除漂变障碍。lncRNAs的保守性远低于mRNA的UTR,原则上可以预期其在类似的限制下进化。大多数人类lncRNA积累点突变,插入和缺失(indels)突变的速率与其大多数功能缺失的速率一致。这种弱保守性表明许多已注释lncRNA是无功能的。根据这些观察结果,已经表明lncRNA具有固有可塑性,可能不需要高度保守性即可发挥功能。在极端情况下,据推测,即使缺乏任何可检测的序列保守性,lncRNA的结构区域也有能保持其功能的可塑性。
实际上,由于RNA分子具有功能性,因此它必须具有该功能的一些结构决定因素,这些决定因素要求严格限制并因此具有一定程度的进化保守性。在没有限制的情况下,无限可塑性的lncRNA会在不断遭受突变的猛烈攻击下消失。如果lncRNA能够耐受会轻微破坏其关键结构的突变,那么它们还必须在被进一步的破坏性突变最终破坏其结构之前,获取随后的修复性及补偿性突变。重要的是,必须对这些恢复性突变进行实质性的阳性选择,以克服漂移障碍。真核生物的弱选择机制似乎并不倾向于通过正向选择或负向选择来维持lncRNA的存在。
逆转上述抗lncRNA出现趋势的真核生物基因组中的弱选择机制的第二个重要含义是,生物化学活性但非功能性实体的不断出现。基因组经历的一系列突变不断产生具有生化活性的短基序,包括转录因子结合和RNA聚合酶募集,从而产生了隐秘的转录起始位点。在弱选择机制下,只有这些隐性转录起始位点相关的转录物在漂变障碍上具有负适应性时,才可以通过纯化选择来消除它们。这种质量保证机制可大大降低此类转录起始位点的潜在负面影响,该机制可降解伪RNA或至少阻止其有效地翻译成蛋白质。因此,人们期望在弱选择下进化的多细胞真核生物的基因组将不可避免地产生大量的,低丰度的非编码RNA,这些RNA会产生小的(正和负)适应性效应。伪造的基因产生非特异性的转录噪声(transcriptional noise),预计会被中性进化不断产生和破坏。因此,
复杂真核生物的进化动力学必定会产生一个充满不断变化的转录噪声的基因组。
真核生物中特别是动植物中极其丰富的转座子(transposable elements, TEs)进一步加剧了真核生物基因组的固有噪声。这些DNA元件会自我复制,并且随时间流逝,大多数会发生失活突变。作为结果,它们的“遗骸”构成了我们基因组DNA的大部分,例如在非常大的基因组中(例如,具有人类DNA数量50倍的蝾螈),TEs所占的比例更高。确实,人们普遍认识到,
基因组扩展在很大程度上受TEs活性的驱动,这已通过大规模的基因组调查和密切相关的物种分析得到了验证。
在某些情况下,全基因组重复和多倍性可以进一步扩展基因组,但是这些情况极为罕见,尤其是在脊椎动物中。TEs通常携带转录因子结合位点和转录起始位点,从而促进非特异性混杂的转录。实际上,已经观察到许多lncRNA及其启动子均来自TEs。最终,弱选择下的进化动力学以及不断添加和消除TEs共同导致非特异性转录本的不断生成和丢失,从而导致了高度动态的垃圾RNA组(RNome)。
2,真核转录机器的“混杂”促进了垃圾RNA的产生
通常被掩盖的另一个概念是,低水平的垃圾RNA的产生与我们目前对生物化学的理解完全兼容。所有酶和调节蛋白都具有一定程度的混杂性,并且可以结合至次优底物(sub-optimal substrates)并对其起作用。因此,通常识别短的简并DNA基序的转录因子不仅会结合基因调控区域,而且会结合基因组中的许多其他非功能性位点。同样,RNA聚合酶将在次优位点以任何可及的DNA上的低速率启动转录,这解释了为什么人类和小鼠基因组中所有注释的转录起始位点中有一半不与任何注释的基因(包括lncRNA)相关。实际上,已经观察到,无核小体的DNA容易转录为RNA,并且RNA聚合酶可将DNA结合到出芽酵母的整个基因组中,包括基因间区域,表明这些区域至少偶尔会被转录。此外,当抑制或删除涉及RNA降解的酶时,酵母中这些基因间转录物的水平会增加。这种现象并不仅限于酵母,因为已经证明在小鼠肝细胞中,多达20%的转录发生在基因间区域,从而产生不稳定产物。因此,似乎RNA质量控制系统可以识别大多数伪转录本,并将其从RNA的总库中删除。
尽管紧密包裹在异染色质中的DNA通常是RNA聚合酶的不佳底物,但偶尔也会发生转录,其中一些转录对于维持许多真核生物的异染色质结构是必需的。确实,“DNA元件百科全书计划(encyclopedia of dna elements,encode)”的数据表明,大多数异染色质都被转录,尽管水平很低。常染色质本身包含大量的基因间序列,这些序列可能不起作用,但也均以低水平转录。总的来说,确实能够观察到细胞包含许多非最佳反应的产物,这与通过基因间转录产生RNA尤其相关。
3, 质量控制系统可减少垃圾RNA的有害影响
垃圾DNA中的虚假转录起始位点和转录因子结合基序不断在中性进化过程被生成和破坏,与固有的酶(如RNA Pol II)混杂在一起,这种进化的噪音不可避免地导致了垃圾RNA的产生。这些垃圾RNA分子具有超出其生产成本的有害潜力。然而,它们的潜在负面作用因真核基因表达特征而受到抑制,尤其是所有真核生物中均存在的多层转录物质量控制系统。特别是,核本身是一种质量控制装置,可防止大部分错误处理和随机生成的转录本输出到细胞质中并转化为异常蛋白质。
编码蛋白质的RNA包含加工信号,包括5’和3’剪接位点基序和内含子分支点(intronic branch points),它们经过一定程度的选择才能将剪接体募集到新生转录本上。这些位点的利用通过外显子和内含子中相邻的剪接信号增强。募集后,剪接体去除这些信号以及RNA的非功能区(内含子),并将mRNA输出因子募集到加工完全的mRNA,从而增强其输出。此外,mRNA还包含其他区别特征,例如GC含量模式,这些特征也促进了其核输出。相反,垃圾RNA通常缺乏强大的加工信号和其他促进输出的特征。确实,许多已注释的lncRNA包含5’剪接位点基序,但缺少相应的3’剪接位点以及包含未剪接的内含子。此外,由于U1募集到成熟的转录本上,许多lncRNA似乎保留在细胞核中。除了弱的剪接信号外,lncRNA通常还具有其他在mRNA中消除的特征,例如与TEs相关的基序,可促进衰变和/或核保留。尽管可以选择使用质量控制机制来促进某些功能性lncRNA在细胞核中的正确定位,但所有这些观察结果似乎都与大多数lncRNA都是“垃圾”的观点最为吻合。尽管产生了大量的垃圾RNA,但它们在很大程度上被质量控制系统检测到并保留在细胞核中降解,从而阻止了它们翻译为异常蛋白质,从而降低了普遍转录的潜在有害作用。
从种群遗传学的角度来看,质量控制体系的发展以及垃圾RNA的大量生产是弱选机制的结果。在这种进化机制下,单个突变的有害作用,即那些产生假转录位点导致垃圾转录的突变,不足以有效地从种群中消除。因此,服从弱选机制的有效群体规模较小的生物会进化出整体解决方案(例如,RNA质量控制系统)来针对局部问题(例如,产生隐秘转录本的突变)。这样的整体解决方案进一步缓冲了普遍转录的有害作用,从而促进了偶尔产生功能性lncRNA的垃圾RNA库的维持。
4, 建设性中性进化促进lncRNA的出现
复杂系统通过获取新组件以及建立它们之间基本连接而出现。有研究提出,通过建设性中性进化(CNE)的进化现象,系统中的“零件”数量可以通过中性过程增加。在CNE下,生物系统的新部件或旧部件之间的新连接是由于近乎中性(通常是轻微有害)的突变而产生的。此类新兴功能通常被称为“产能过剩(excess capacity)”,因为它们有可能被招募为功能系统的新组成部分,因此并不能立即表现出对有机体的益处。产能过剩取决于弱选制度,因为这些特征在弱选条件下发展的人群中更加频繁地出现,而在强选择条件下发展的人群中则可以被有效地消除。最好的描述CNE的范例最初涉及两个分子之间的偶然相互作用。如果其中一个分子被突变破坏,则该相互作用可以通过“陪伴”帮助减弱突变的影响。目前,陪伴分子对于其受损伴侣的正常运转至关重要。
在下文中,作者提出两个说明性的场景,其中真核基因表达的特征有助于通过CNE样过程将垃圾RNA转换为lncRNA。在这些情况下,最初通过选择转录而不是转录序列来维持RNA的产生,而最终后者获得了功能。
5, 基因间转录产物中抑制性lncRNAs的出现
RNA聚合酶II是合成pre-mRNA的主要转录酶,其C端结构域(C-terminal domain, CTD)可以募集染色质修饰酶,进而改变转录的DNA的包装。随着RNA聚合酶II离开启动子区域,其CTD被磷酸化,从而使其能够募集染色质修饰酶,在基因5’端的组蛋白H3的赖氨酸4上沉积二甲基化标记。随着RNA聚合酶在转录延伸过程中穿过基因主体,CTD获得了其他磷酸化标记,这些标记又募集了第二批染色质修饰酶,这些酶对组蛋白H3的赖氨酸36进行甲基化。这些修饰反过来募集了组蛋白脱乙酰基酶,这些酶最终阻止了基因体内隐秘起始位点的转录。通过染色质重塑的这种形式的转录物质量控制是至关重要的,因为源自基因体内虚假的,隐秘的起始位点的有义转录物通常包含mRNA的所有加工信号,因此可以翻译成可能作为显性抑制因子(dominant-negative factors)的截短蛋白。此外,源自这些位点的反义转录可以通过多种机制干扰有义转录。
尽管通过RNA聚合酶II进行的染色质重塑很可能是在选择性压力下进行的,以抑制起源于基因体内的虚假转录,这个过程可以被选择来下调内源基因。如上所述,在弱选择机制下,基因间区域中的转录结合位点和隐秘转录起始位点不断地出现和消失,只要它们基本上不影响生物体的适应性即可。实际上,基因间转录起始位点已显示出下调在发育过程需要被抑制的基因,以响应营养供应量的变化或诱发的压力。在这些情况下,转录因子通过与存在于基因间区域或基因体内的转录起始位点结合而对环境线索作出反应,促进内源性启动子上依赖RNA聚合酶II的转录从而有效地使它们沉默。重要的是,这种沉默仅需要最低水平的转录,并且在很大程度上与所产生的RNA无关。当正向选择这些调节过程然后加以固定时,产生的RNA本身有一定用处,但是通过选择来维持其存在。然后,RNA可以自由地在进化时间内探索序列空间,并且可能会偶然获得染色质重塑酶或其他可增强沉默的蛋白质的结合位点。
与CTD不同,lncRNA可以募集任何数量的特异性染色质修饰酶和其他转录阻遏物。LncRNA还可以充当骨架,将通常无法在给定CTD上组装的许多不同调节复合物聚集在一起。一旦构建lncRNA,它就可以对基因表达进行局部微调,从而可能打开新的进化方向,而这些将很难通过基于CTD的简单沉默来实现。的确,严重依赖基因组不同部分的特异性沉默的生物过程(例如剂量补偿和HOX基因调控),在多种生物中受到lncRNA的调控,包括真兽类X染色体失活中的XIST,果蝇X染色体失活中的roX,以及HOTAIR在脊椎动物HOX基因调控中的作用。因此,基于lncRNA的沉默机制似乎促进了这种基因调控创新。
在这种进化情况下,lncRNA的主要功能似乎是染色质重塑,而染色质重塑会局部或更广泛地影响基因表达。一系列类似CNE的事件可以解释许多lncRNA的出现(例如MEG3,HOTAIR和ANRIL),它们通过募集具有固有RNA结合能力的多梳抑制复合物(polycomb repressive complexes)来调节附近的基因。在一项研究中,观察到469种分析的lncRNA中有180种与多梳抑制复合物或CoREST相关。值得注意的是,这两种复合物均具有染色质修饰酶或与之相关联,从而使基因局部沉默。最终,这些lncRNA甚至可以变得足够强大,不仅可以充当局部基因调节剂,而且还可以充当遥远基因座的反式调节剂,随着时间的流逝,其中一些甚至可能适合用于与基因调节无关的其他过程。
6, 来自增强子RNA的激活lncRNA的出现
类似于CNE的机制也可以帮助解释增强附近基因转录的lncRNA的出现。大多数增强子和一些启动子区域的核小体密度低,并且包含大量转录因子结合位点,可促进依赖于RNA聚合酶II的转录,从而产生被称为增强子RNA(enhancer RNAs, eRNA)或PROMPT的非编码RNA。大多数eRNA被RNA质量控制机制迅速丢弃,因此寿命短。全基因组研究表明,eRNA的合成水平与局部mRNA的合成水平相关。eRNA 通常很短,一些是从两条链合成的,而另一些则是从单条链合成的;一些是聚腺苷酸化的,而另一些则不是。由于这些原因,eRNA和lncRNA之间的区别仍然含糊不清。eRNA在增强子功能中的作用,仍存在争议:在某些增强子中,eRNA似乎是完全不需要的,而在其他情况下(例如,Upperhand,Irg1 eRNA和Ifnar2 eRNA),它们是RNA聚合酶II依赖性转录的副产物,可在增强子激活过程中重塑染色质景观。据报道,其他eRNA如KLK3e,FOXC1 eRNA和AS1 eRNA通过介导基因环化直接促进附近基因的激活,而诸如Bloodlinc类的eRNA甚至会激活没有物理连接到各自增强子的基因。它们的起源可能是由于无核小体,转录因子结合位点丰富的DNA区域不可避免的低水平转录,随时间流逝而获得中性突变。如果eRNA偶然获得某种促进基因环化或激活附近基因转录的活性,则这种产能过剩使增强子发生突变性衰变,此时需要lncRNA相关活性并通过纯化选择来维持。
7, LncRNAs从许多不同类型的非功能性前体进化而来
一个比较统一的说法是,lncRNA的进化主要是由于从影响染色质调节,增强子功能或其他过程的各个启动子中选择转录,而至少从一开始就不是从影响转录物序列本身的正向选择中进行。这种进化过程产生了垃圾RNA,且随时间流逝可以获得调控因子的结合位点。这些位点可能是短基序,结构元件,甚至是RNA加工信号。有趣的是,倾向于显示最高保守水平的lncRNAs区域是剪接位点周围的区域,这表明它们可能只是起到共转录募集剪接体的作用,剪接体本身与某些影响局部染色质堆积的染色质调节复合物结合。
TE在lncRNA进化中也起着重要作用,因为TE插入是垃圾DNA在真核基因组中扩展的主要机制之一。许多lncRNA外显子都含有TE插入序列。据估计,lncRNA中约40%的核苷酸来自TE,而超过80%的lncRNA包含至少一个TE插入。模型预测,大多数lncRNA源自基因周围的垃圾序列,而蛋白质编码基因则主要源自基因复制。最近的核糖体谱分析分析发现许多小ORF是从以前被认为是非编码RNA的翻译而来的,许多产生的小蛋白似乎在功能上很重要。因此,lncRNA和mRNA之间没有不可穿透的屏障,并且CNE样过程也可以极大地促进新型蛋白质功能的出现。
垃圾转录物是lncRNA的最常见但不是唯一来源。用mRNA进行进化修饰也可以产生lncRNA,然后将其改造成染色质重塑的新功能。XIST RNA就是这种情况,它是从仍存在于鸟类,爬行动物和有袋类动物中的蛋白质编码基因进化而来,但失去了其编码能力,并在以兽类哺乳动物中获得了一些TE衍生的序列,参与了X染色体剂量补偿。mRNA无需先失去其编码功能,就如同squint,不仅编码蛋白质,而且在小鼠胚胎发育中具有单独的非编码RNA功能。从mRNA进化lncRNA的其他情况,特别是通过TE插入破坏编码序列的情况,很可能存在并有待表征。然而,考虑到蛋白质编码区的破坏通常是有害的,并且考虑到动物基因组的普遍转录,我们强烈怀疑此处概述的从垃圾转录物中进化功能性lncRNA的“转录优先”模型是lncRNA的主要途径演化。
讨论
总的来说,从种群遗传学的角度来看,复杂基因组中“垃圾高发”的根本原因是很明显的:复杂生物体中有效种群规模很小,因此选择效率低下,遗传漂变是进化的主要因素。垃圾DNA的有害作用相对较弱,因此它不会越过漂移壁垒,因此无法通过纯化选择被有效地清除。此外,选择效率低下的生物进化出了针对普遍存在的局部问题的全局解决方案,例如RNA质量控制系统,从而限制了垃圾转录本对机体的损害。正如Ohno在介绍“垃圾DNA”概念的开创性论文中所认可的那样,“junk is not garbage”。弱选进化机制鼓励“产能过剩”的产生,并为推动生物体复杂化的新功能实体的进化提供原材料。这种类似于CNE的进化途径与lncRNA特别相关,在lncRNA中,相对少量的突变可能会将垃圾转录物转化为功能性RNA分子。因此,lncRNA组(lncRNAome)及最终的生物复杂性可以归功于基因组中的垃圾。
原文链接:
https://doi.org/10.1016/j.cell.2020.09.047