基因组DNA
自然界绝大多数生物体的遗传信息贮存在DNA的核苷酸排列顺序中。DNA是巨大的生物高分子,一般将细胞内遗传信息的携带者棗染色体所包含的DNA总体称为基因组(genome)。同一物种的基因组DNA含量总是恒定的,不同物种间基因组大小和复杂程度则差异极大,一般讲,进化程度越高的生物体其基因组构成越大、越复杂。
DNA分子中不同排列顺序的DNA区段构成特定的功能单位,即基因(gene)。基因的功能取决于DNA的一级结构。一个DNA分子能携带多少基因呢?如果以1000~1500bp编码一个基因计算,猿猴病毒SV40基因组DNA有5000碱基对(base pair,bp),可编码5种基因,人类基因组含3×109bp DNA,理论上可编码200万以上的基因,然而,由于哺乳动物的基因含有内含子(intorn),因而每个基因可长达5000~8000bp,少数可达20,000bp.按这样大小的基因进行推算,人类基因组相当于40~60万个基因。这可能吗?虽然现在还不知道确切数字,但利用核酸杂交已测得哺乳类细胞含50,000~100,000种mRNA,由此推论整个基因组所含基因不会超过10万个,只占全部基因组的6%,另外5~10%为rRNA等重复基因,其余80~90%属于非编码区,没有直接的遗传学功能。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间,可能在DNA复制、调控中具有重要意义,并与生物进化、种族特异性有关。可见原核细胞由于DNA分子较小,必须充分利用有限的核苷酸序列,这是真核基因组与原核基因组显然不同之处。
真核基因组与原核基因组在结构上还有很多不同的特点,归纳如下:
1.真核生物基因组结构特点
①真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。
②真核细胞基因转录产物为单顺反子(monocistron),即一个结构基因转录、翻译成一个mRNA分子,一条多肽链。
③存在大量重复序列,即在整个DNA中有许多重复出现的核苷酸顺序,重复序列长度可长可短,短的仅含两个核苷酸,长的多达数百、乃至上千。重复频率也不尽相同;高度重复序列重复频率可达106次,包括卫星DNA、反向重复序列和较复杂的重复单位组成的重复序列;中度重复序列可达103~104次,如为数众多的Alu家族序列,KpnI家族,Hinf家族序列,以及一些编码区序列如rRNA基因、tRNA基因、组蛋白基因等;单拷贝或低度重复序列,指在整个基因组中只出现一次或很少几次的核苷酸序列,主要是编码蛋白质的结构基因,在人基因组中占约60~65%,因此所含信息量最大。
④基因组中不编码的区域多于编码区域。
⑤基因是不连续的,在真核生物结构基因的内部存在许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA,作为指导蛋白质合成的模板。
⑥基因组远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。