石松类和蕨类植物基因组测序研究进展
胡嵌封1,2, 顾钰峰3, 王晖1, 黄腾波2, 张永夏2, 舒江平1     
1. 深圳市中国科学院仙湖植物园, 深圳市南亚热带植物多样性重点实验室, 广东深圳 518004;
2. 深圳大学生命与海洋科学学院, 广东省植物表观遗传学重点实验室, 广东深圳 518055;
3. 深圳市兰科植物保护研究中心, 兰科植物保护与利用国家林业和草原局重点实验室, 广东深圳 518114
摘要: 石松类和蕨类植物作为古老的维管植物类群,其基因组具有独特特征和重要研究价值,在植物演化中占据关键地位。本文综述了石松类和蕨类植物基因组的核心特征,包括基因组大小与染色体数目显著相关、重复序列比例高、全基因组复制与多倍化频繁等;同时,梳理探讨了基因组进化机制,阐述了基因组解析在水平基因转移等方面的关键发现。此外,本文还展望了未来研究方向和策略,以期推动石松类和蕨类植物基因组研究,为理解陆地植物演化、促进相关学科发展及蕨类资源利用提供参考。
关键词: 石松类    蕨类植物    基因组特征    基因组进化    基因组复制    
Research Progress in Whole Genome Sequencing for Lycophytes and Ferns
HU Qianfeng1,2, GU Yufeng3, WANG Hui1, HUANG Tengbo2, ZHANG Yongxia2, SHU Jiangping1     
1. Shenzhen Key Laboratory of Southern Subtropical Plant Diversity, Fairy Lake Botanical Garden, Shenzhen & Chinese Academy of Sciences, Shenzhen, Guangdong, 518004, China;
2. Guangdong Key Laboratory of Plant Epigenetics, College of Life Sciences and Oceanography, Shenzhen University, Shenzhen, Guangdong, 518055, China;
3. Key Laboratory of National Forestry and Grassland Administration for Orchid Conservation and Utilization, The Orchid Conservation and Research Center of Shenzhen, Shen-zhen, Guangdong, 518114, China
Abstract: As ancient vascular plant groups, lycophytes and ferns occupy a crucial position in plant evolution, and their genomes possess unique characteristics and significant research value.This article reviews the core features of lycophyte and fern genomes, including the significant correlations between genome sizes and chromosome counts, a high proportion of repetitive sequences, and frequent whole-genome duplication and polyploidization events.Meanwhile, this article sorts out and discusses the mechanisms of genome evolution and expounds on the key findings of genome analysis in aspects such as horizontal gene transfer.In addition, this article makes an outlook on the future research directions and strategies to advance the study of lycophyte and fern genomes, providing references for understanding the evolution of terrestrial plants, promoting the development of related disciplines, and facilitating the utilization of fern resources.
Key words: lycophytes    ferns    genome characteristics    genome evolution    genome duplication    

石松类和蕨类植物作为地球上古老的植物类群,是地球生物多样性的重要组成部分,更是植物研究领域不可或缺的研究对象,在植物界占据着至关重要的地位。作为维管植物中仅次于被子植物的第二大类群,全世界石松类和蕨类植物约有13 000种(https://www.worldplants.de),广泛分布于全球。中国的石松类和蕨类植物多样性极其丰富,包含43科192属2 600余种[1]。石松类和蕨类植物最为独特,既是高等孢子植物,又是原始的维管植物,系统演化地位处于苔藓植物和种子植物之间,是承上启下的过渡类型[2]

蕨类植物包括同型孢子和异型孢子两种类型,这两种类型在栖息地偏好、繁殖方式和基因组大小等方面存在显著差异[3]。大多数陆生蕨类植物是同型孢子类,即产生单一类型的孢子,发育成两性配子体;少数蕨类植物为异型孢子类,会产生大小不同的孢子,并且各自严格发育成雄性或雌性配子体[4]。与蕨类植物类似,石松类植物也包含同型孢子和异型孢子两种类群,其中卷柏科(Selaginellaceae)和水韭科(Isoetaceae)为异型孢子类群,石松科(Lycopodiaceae)则为同型孢子类群[5]

基因组,是指一个生物体全部遗传物质的总和,涵盖该生物生长、发育、繁殖等生命活动所需的全部基因信息,包括核基因组和叶绿体、线粒体等细胞器基因组。石松类和蕨类植物基因组大小变异范围极广,是植物界中基因组大小差异极为显著的类群之一。基因组大小与染色体数目在石松类和蕨类植物中显著相关,但在其他植物类群中相关性较弱[6]。例如,被子植物在基因组多倍化后,会通过高效且频繁的基因组片段化和去冗余过程快速完成二倍化;相比之下,蕨类植物的二倍化过程比较缓慢,从而强化了基因组大小与染色体数目的关联性[7]。石松类和蕨类植物基因组中重复序列占比极高,是基因组扩张的核心驱动力[3]。由于生殖隔离机制不完善,基因组多倍化比例高[8],现存蕨类植物的染色体数目非常庞大[2]。石松类和蕨类植物的基因组特征与其世代交替的生活史、广泛的生态适应性及远缘杂交能力密切相关,是理解植物基因组动态演化的重要模型。然而,大多数石松类和蕨类植物基因组巨大而复杂,这在一定程度上阻碍了石松类和蕨类植物生物学和维管植物进化的相关研究[9]。因此,本文综述了石松类和蕨类植物基因组的核心特征和测序进展,并对未来研究方向及测序策略进行了展望,拟为理解石松类和蕨类植物基因组进化、资源保护与利用提供重要参考。

1 基因组测序研究现状

近年来,在测序技术进步的推动下,石松类和蕨类植物基因组测序工作取得了一定成果[10]。其中,江南卷柏(Selaginella moellendorffii)是最早完成基因组测序的石松类植物,其基因组大小约为213 Mb,染色体数目为20[11-12]。随着基因组的破译,江南卷柏已成为石松类和蕨类植物研究的重要模式物种,其端粒到端粒(Telomere-to-Telomere,T2T)基因组测序也已经完成,这对理解石松类和蕨类植物的进化历程、生长发育机制和环境适应性分子机制等具有重要意义[13]。随后,卷柏(Selaginella tamariscina)[14]、鳞叶卷柏(Selaginella lepidophylla)[15]、小翠云(Selaginella kraussiana)[16]等石松类植物以及细叶满江红(Azolla filiculoides)[17]、美洲水蕨(Ceratopteris richardii)[9]、桫椤(Alsophila spinulosa)[18]、铁线蕨(Adiantum capillus-veneris)[3]、深圳双扇蕨(Dipteris shenzhenensis)[19]等蕨类植物的基因组也相继被解析。到目前为止,已有20余种石松类和蕨类植物完成了基因组的测序与组装(表 1)。

表 1 石松类和蕨类植物基因组测序信息 Table 1 Genome sequencing information of lycophytes and ferns
物种
Species
基因组大小/Mb
Genome size/Mb
染色体数目
Chromosome count

Family
测序方法
Sequencing method
参考文献
Reference
Isoetes sinensis 2 131.8 22 Isoetaceae PacBio CLR long-reads, Illumina short-reads, Hi-C [20]
Isoetes taiwanensis 1 658.3 11 Isoetaceae Oxford Nanopore long-reads, Illumina short-reads, Bionano optical mapping [21]
Diphasiastrum complanatum 1 740 23 Lycopodiaceae PacBio CLR long-reads, Illumina short-reads, Hi-C [5]
Huperzia asiatica 7 940 69 Lycopodiaceae PacBio CLR long-reads, Illumina short-reads, Hi-C [5]
Lycopodium clavatum 2 304.7 - Lycopodiaceae Illumina, PacBio Sequel Ⅰ sequencing [22]
Selaginella kraussiana 132.37 - Selaginellaceae PacBio CLR long-reads, Illumina HiSeq 2500 short-reads, Hi-C [16]
Selaginella lepidophylla 109 10 Selaginellaceae PacBio SMRT long-reads, Illumina short-reads [15]
Selaginella moellendorffii 212.6 10 Selaginellaceae Whole-genome shotgun sequencing [11]
Selaginella moellendorffii 112.93 10 Selaginellaceae PacBio HiFi long-reads, ONT long-reads, Hi-C(T2T genome assembly) [13]
Selaginella sellowii 72 - Selaginellaceae PacBio long-reads, Illumina short-reads, Hi-C [23]
Selaginella silvestris 74 - Selaginellaceae PacBio long-reads, Illumina short-reads, Hi-C, Illumina HiSeq RNA sequencing [23]
Selaginella tamariscina 301 - Selaginellaceae PacBio SMRT long-reads, Illumina HiSeq 4000 short-reads [14]
Cibotium barometz 3 500 66 Cibotiaceae PacBio HiFi long-reads, Hi-C, Illumina NovaSeq short-reads [24]
Alsophila spinulosa 6 230 69 Cyatheaceae PacBio SMRT long-reads, Illumina HiSeq X-10 short-reads, Hi-C [18]
Gymnosphaera denticulata 6 250 68 Cyatheaceae PacBio HiFi long-reads, Illumina short-reads, Hi-C [25]
Sphaeropteris brunoniana 2 540 69 Cyatheaceae PacBio HiFi long-reads, Illumina short-reads, Hi-C [25]
Sphaeropteris lepifera 5 500 69 Cyatheaceae PacBio HiFi long-reads, Illumina short-reads, Hi-C [25]
Dipteris shenzhenensis 1 900 33 Dipteridaceae PacBio Sequel Ⅱ/IIe HiFi long-reads, Illumina HiSeq short-reads, Hi-C [19]
Lygodium microphyllum 4 750 - Lygodiaceae Oxford Nanopore long-reads, Illumina short-reads, Dovetail Omni-C [26]
Marsilea vestita 1 040 20 Marsileaceae Illumina short-reads, Nanopore MinION long-reads, Hi-C [27]
Ceratopteris richardii 7 463.3 39 Pteridaceae PacBio Sequel long-reads, Illumina NovaSeq short-reads, Hi-C, Whole-genome bisulfite sequencing [9]
Azolla filiculoides 750 22 Salviniaceae PacBio RS Ⅱlong-reads, Illumina HiSeq 2000 short-reads [17]
Salvinia cucullata 260 9 Salviniaceae PacBio RS Ⅱlong-reads, Illumina HiSeq 2000 short-reads [17]

第二代测序技术如Illumina平台凭借高准确性、高通量及低成本的优势,成为早期石松类和蕨类植物基因组测序的主流选择,细叶满江红、勺叶槐叶蘋(Salvinia cucullata)[17]等物种的首个基因组图谱均基于第二代测序技术构建。然而,传统的第二代测序技术因读长较短,且难以跨越基因组中的大量重复区域,导致组装结果往往高度碎片化,无法满足基因组结构与功能深入研究的需求。例如,早期美洲水蕨的基因组组装因短读长限制,未能检测到大共线性区块,制约了对其全基因组复制(Whole Genome Duplication, WGD)事件的精准解析[28]。因此,第二代测序技术更适用于小基因组的初步测序。

随着测序技术的创新发展,以Oxford Nanopore和PacBio为代表的第三代测序技术凭借其超长读长的核心优势,有效克服了第二代测序短读长的局限性,可帮助研究者得到连续性更好的复杂基因组序列[10]。美洲水蕨的染色体水平基因组组装采用了PacBio测序技术,同时结合多组学数据,不仅明确了约6 000万年前的WGD事件,还解析了其9号染色体上36个串联重复的气单胞菌溶素蛋白编码基因(Aerolysin-like protein-coding genes)的分布与功能分化[9]。此外,深圳双扇蕨[19]、荷叶铁线蕨(Adiantum nelumboides)[29]等物种的基因组研究也均以第三代测序为核心技术,再次证实了该技术在解析蕨类大基因组结构与功能中的重要作用。

由于植物着丝粒所在区域存在大量的重复序列,在早期测序组装过程中难以准确地处理和拼接这些重复区域,随着第三代测序技术的突破,T2T基因组的组装已成为可能[30]。通过多种测序平台的高深度测序,无缺口(Gap-free)或少缺口(Gap-less)的高质量T2T基因组已经成功组装,从而克服了着丝粒或高重复区域组装困难的问题,极大提高了染色体的连续性和完整性。江南卷柏的T2T基因组与之前报道的卷柏属(Selaginella)植物基因组相比[11, 14],其在完整性和连续性方面均表示出明显的优势[13]。为获得更高质量的染色体水平基因组,高通量染色体构象捕获技术(High-throughput/resolution chromosome conformation capture,Hi-C)已被应用于单倍型基因组和T2T基因组的组装上。但现有Hi-C组装准确性不足,难以应对多倍体中的复杂基因组结构问题[10]。Pore-C技术比Hi-C更具扩展性,其结合了Oxford Nanopore长读长测序与染色体构象捕获技术的优势[31]。然而,由于单读长的测序错误率相对较高,且单次运行成本显著高于Hi-C,Pore-C技术仍需进一步优化,这样才能更充分地利用其所获取的数据构建更长的基因组片段。

2 基因组特征 2.1 基因组大小与染色体数目

石松类和蕨类植物基因组大小差异极大(图 1)。同型孢子类群的基因组通常远大于异型孢子类群的基因组,其中,Selaginella sellowii基因组最小, 仅72 Mb,而Tmesipteris oblanceolata基因组高达160.45 Gb[33],是迄今为止所发现的基因组最大的生物。小型基因组(<1 Gb)主要集中在卷柏科和槐叶蘋科(Salviniaceae),中型基因组(1 Gb≤基因组 < 10 Gb)则以水韭科、凤尾蕨科(Pteridaceae)等陆生类群为主要代表类群,大型基因组(10 Gb≤基因组 < 100 Gb)的典型代表类群为膜蕨科(Hymenophyllaceae)和桫椤科(Cyatheaceae),而超大基因组(≥100 Gb)的蕨类物种多隶属于松叶蕨科(Psilotaceae)。这种基因组大小的分化模式,为探讨石松类和蕨类植物的系统演化、生态适应性及基因组进化机制提供了重要的研究线索。石松类植物染色体基数整体偏低,多为10-25,这些类群的基因组相对保守,多倍体化事件发生频率较低,染色体数目变化幅度也较小[20, 34]。蕨类植物不同科属的染色体基数呈现出显著差异,铁角蕨科(Aspleniaceae)染色体基数仅为12[35],而木贼科(Equisetaceae)染色体基数高达108[36],相差近10倍。从孢子类型的角度来看,同型孢子蕨类植物比异型孢子蕨类植物的染色体基数和基因组要大得多[37-38]

图 1 石松类和蕨类植物基因组大小的系统分布(系统树引自PPG Ⅰ[32]) Fig. 1 Systematic distribution of genome sizes in lycophytes and ferns(Phylogenetic tree cited from PPG Ⅰ[32])

石松类和蕨类植物基因组大小的变异机制一直是研究焦点,已有研究指出其基因组大小可能与染色体数量、多倍体化等因素有关[39],这一观点为解析该类群基因组的特征提供了重要方向。C值指一个生物体单倍体基因组中全部DNA的含量,是量化基因组大小的核心指标。基于Plant DNA C-values Database(https://cvalues.science.kew.org/)、Wang等[39]和Fujiwara等[40]的研究数据可知,石松类和蕨类植物的C值差异极为显著(表 2)。Haufler等[41]提出基因组大小与染色体数量存在正相关性的假设,该假设在石松类和蕨类植物中得到了明显的支持[28]。由于石松类和蕨类植物存在频繁的多倍体化现象,且基因丢失率相对较低;此外,石松类和蕨类植物每条染色体所能承载的DNA含量存在上限[42],无法增加单条染色体的DNA含量,必须依靠染色体数量的增加来维持更大的基因组,因此随着染色体数量增加,基因组大小也随之显著增长,最终强化了二者的关联性。被子植物基因组大小与染色体数量的相关性较弱,虽然被子植物在进化历程中经历过多次多倍化事件,但是被子植物能够通过高效且频繁的基因组片段化以及去冗余过程,快速完成基因组二倍化[7]。石松类和蕨类植物的二倍化过程相对缓慢,难以快速清除冗余的基因序列,导致石松类和蕨类植物的基因组大小随着染色体数目的增加而增长[7]。Clark等[42]研究发现,被子植物的染色体大小差异可达3 100倍,而蕨类植物仅为31倍。

表 2 石松类和蕨类植物C值的科级统计信息 Table 2 Family-level statistical information on C-values of lycophytes and ferns

Family
样本总数
Total number of samples
有效1C值样本数
Number of samples with valid 1C
有效1C值样本占比/%
Proportion of samples with valid 1C/%
平均1C值/Mb
Mean 1C/Mb
最小1C值/Mb
Min 1C/Mb
最大1C值/Mb
Max 1C/Mb
1C值极值比
1C extremum ratio
Isoetaceae 250 2 0.8 6 719 1 710 11 728 6.9
Lycopodiaceae 388 13 3.4 3 693 2 401 5 522 2.3
Selaginellaceae 700 42 6.0 121 72 348 4.8
Anemiaceae 115 4 3.5 15 406 7 394 22 435 3.0
Aspleniaceae 4 361 255 5.8 9 436 3 325 25 976 7.8
Athyriaceae 650 26 4.0 10 674 6 455 20 323 3.1
Blechnaceae 265 13 4.9 12 588 6 152 19 306 3.1
Cibotiaceae 9 4 44.4 5 756 4 381 6 954 1.6
Culcitaceae 2 1 50.0 11 844 11 844 11 844 1.0
Cyatheaceae 643 19 3.0 9 334 6 191 14 738 2.4
Cystopteridaceae 37 6 16.2 6 993 4 243 8 355 2.0
Davalliaceae 65 4 6.2 8 927 7 609 11 022 1.4
Dennstaedtiaceae 265 8 3.0 9 521 4 371 14 832 3.4
Dicksoniaceae 35 4 11.4 7 795 2 406 11 130 4.6
Diplaziopsidaceae 4 2 50.0 6 093 6 044 6 142 1.0
Dipteridaceae 11 7 63.6 7 353 2 347 18 513 7.9
Dryopteridaceae 2 115 141 6.7 12 711 6 249 57 858 9.3
Equisetaceae 15 15 100.0 21 293 12 524 29 833 2.9
Gleicheniaceae 157 8 4.5 2 359 1 780 3 110 1.7
Hymenophyllaceae 434 12 2.8 19 857 10 494 31 408 3.0
Hypodematiaceae 22 3 13.6 9 646 8 998 9 995 1.1
Lindsaeaceae 234 6 2.6 9 123 3 472 12 841 3.7
Lomariopsidaceae 69 2 2.9 29 345 17 780 40 910 2.3
Lonchitidaceae 2 1 50.0 7 556 7 556 7 556 1.0
Lygodiaceae 40 9 22.5 10 943 5 438 17 643 3.2
Marattiaceae 111 13 11.7 9 685 4 430 20 548 4.6
Marsileaceae 61 6 9.8 1 224 714 1 878 2.6
Nephrolepidaceae 19