染色体上两个相邻基因之间的区域(intergenic)的RNA转录广泛存在于真核生物中[1,2]。例如,在人类基因组中,尽管编码蛋白质的区域只占约1.5%,基因总长也只占约三分之一,但RNA转录在超过75%的区域中被检测到[3]。然而,基因间转录的生物学意义仍然存在争议。功能性假说认为基因间的转录主要是来源于功能未知的蛋白编码基因和功能性的非编码基因(non-coding gene)的转录。确实,一些基因间非编码长RNA(lincRNAs)被证实是具有生物功能的[4]。即使非编码基因的转录物(transcript)本身是无功能的,其转录行为也可能调节其他基因的表达。相反,非功能性假说认为除了由邻近基因的表达所致的基因间转录之外,大多数基因间转录都是由随机启动子活性(chance promoter activity)所产生的无功能产物。值得注意的是,之前的研究发现在原核模式生物大肠杆菌中,约10%的长度为100个核苷酸的随机序列具有与乳糖操纵子的启动子(promoter)相当的启动子活性,另外约60%的随机序列仅需一次突变就能拥有类似的活性[5]。但在真核生物中,我们并不知道随机DNA序列推动转录的概率以及所得的转录水平,特别是考虑到染色质的存在可能会极大地抑制转录的发生。
该研究通过在酿酒酵母中测定DNA随机序列的启动子的活性分布,发现41%至63%的长度为120个核苷酸的随机序列具有显著的启动子活性。同时通过比较随机序列的启动子活性分布和基因间转录的活性分布,该研究推测酿酒酵母中仅有1-5%的基因间转录具有功能。
为了研究真核生物的基因间转录有生物学意义还是仅反映随机序列的启动子活性,研究者首先在酿酒酵母中检测了随机序列的转录几率和启动子强度。他们构建了一个包含>105个菌株的文库。该文库中每个菌株都在基因组中一特定位点携带一个120个核苷酸的完全随机的序列作为潜在的随机启动子。随机启动子的下游是由20个随机核苷酸构成的条形码(barcode)。研究者通过对DNA和cDNA进行条形码测序(Barcode-sequencing)来估算上游随机启动子的转录强度(图a)。此外,该文库中还加入了没有上游随机序列但只有下游条形码的阴性对照和用内源性基因的启动子驱动下游条形码转录的阳性对照。
通过这个系统,研究者发现在两个测试环境中,41%至63%的随机序列具有显著的启动子活性(图b)。通过与酵母内源性基因启动子的比较,他们发现大多数(90%)随机序列的启动子强度要低于80%的酵母内源性启动子,但最强的随机序列的启动子活性也能达到与内源性启动子前15%相当的水平 (图c)。
该研究发现,在酿酒酵母中,120个核苷酸的随机序列有一半具有显著的启动子活性,这表明即使在真核生物中,随机序列也可能被偶然转录并被表达。但相比于大肠杆菌,酵母中的随机启动子的转录水平要低得多。这种差异可能是由于真核生物的染色质结构和/或酵母中缺乏类似于大肠杆菌中被σ因子结合的启动子短序列所致。此外,研究者还研究了不同的序列特征(核苷酸组成,TATA盒,和转录因子结合位点)在没有核心启动子支架(core promoter scaffold)的情况下对启动子强度的影响。他们的实验结果表明很多转录因子对转录的影响可以独立于核心启动子的存在。他们还观察到1-5%的酵母基因间转录既无法归究于随机的启动子活性也不是邻近基因的表达所致,因此可能是功能性的。
由于真核生物的基因组大小存在巨大差异,因此研究者们无法确定他们在酿酒酵母中发现的基因间转录的来源是否可以直接用于其他真核生物。但是,他们的这种研究方法很可能广泛适用于研究真核生物中基因间转录的功能意义。