植物基因组组装综述-526互联

基因组特征评估Survey
简单植物基因组组装
高杂合基因组组装
高重复基因组组装
高倍性基因组组装
植物泛基因组组装
测序技术发展与组装质量

基因组特征评估Survey

基因组大小、杂合度和重复序列含量是决定测序成本、组装难度和最终组装效果的最重要的几个特征。

全部测序read 中K-mer（在测序read 上相隔1 bp 取长度为K 的子序列）的种类及其出现次数（K-mer深度）通过分布曲线展示出来，即可观察到基因组的基本特征。

在测序覆盖均匀、没有测序错误和重复序列的基因组上，K-mer 分布曲线符合泊松分布。如果基因组存在某些复杂特征，会使分布曲线偏离泊松分布，出现与特征相对应的峰。

在实际测序数据的K-mer 分布曲线上，第一个极高的值是测序错误导致的K-mer，深度只有1-2。
单倍体或纯合基因组的K-mer 分布曲线只有一个主峰。杂合二倍体基因组的K-mer 分布曲线有两个峰，分别为杂合峰和纯合峰，前者深度只有后者的一半。
杂合多倍体基因组则会出现多个杂合峰。杂合峰的比例越高，表示杂合度越大。
重复序列含量较高时会在主峰后面形成一个小峰或者在极高深度处形成拖尾。

基因组大小可以由（总K-mer 数量）/（K-mer期望测序深度）来估计，通常以K-mer 分布曲线的主峰深度作为期望测序深度。该公式估算的基因组大小有10% 左右的误差，可以结合流式细胞实验检测DNA 含量，估算基因组大小进行综合考虑。

几种植物基因组Illumina 测序数据K-mer 分布曲线：

a：测序错误导致的峰，深度只有1-2；b：单倍体或者纯合二倍体基因组的主峰；c：低拷贝数重复序列组成的峰，深度常为主峰的2 倍；d：高频重复序列组成的峰。
在杂合二倍体基因组中，b1 峰包含杂合区域的k-mer，b2 峰包含纯合区域的k-mer。b1 深度只有平均深度的一半。在杂合同源四倍体植物中，b1 和b2 峰都表示杂合区域的k-mer，b3 峰表示纯合区域的k-mer

简单植物基因组组装

基因组大小不超过1Gb，纯合或者杂合度低于千分之五，重复序列含量低于50% 的基因组可以被归类为简单基因组，使用二代测序数据、二三代测序数据混合或者
纯三代测序数据，都可以完成组装。

在二代数据为主的项目中，通常用小片段文库组装contig，大片段文库（mate-pair）构建scaffold ；加入少量三代数据混合组装，以填补scaffold 中的gap区域。

与前两种方式相比，使用纯三代数据组装，能够显著提高组装的连续性、完整性等指标，缩短组装时间。使用三代测序数据获得高质量的组装片段，再利用遗传图谱、Hi-C 图谱、光学图谱等构建成染色体，是当前解析简单基因组最高效的方案，也是学术期刊对简单基因组组装的普遍要求。

由于三代测序数据单碱基错误率高达10%-15%，组装得到的基因组通常需要先进行序列纠错（“抛光”）再进行基因注释等分析。基因组纠错可以使用二代数据或者三代数据，必要时两种数据结合进行多次纠错。

高杂合基因组组装

自交不亲和和无性繁殖在自然界的植物中普遍存在，造成了基因组的杂合特征。

高杂合基因组杂合度约为1%-2%，即同源片段的序列差异达到1%-2%，导致组装时同源区域的read 无法充分合并，产生大量分支结构，严重影响组装的连续性及后续分析。

将基因组DNA 分成小份分别进行测序、组装是避免杂合片段干扰的一种有效方法，每份DNA 含有极少量杂合片段，基本可作为纯合基因组组装，从而降低组装难度。

早期解决杂合基因组使用BAC-by-BAC 策略，构建数万个BAC 克隆，每个单独测序、组装，然后合并成一套基因组。另一
种方法是借助减数分裂分离出单套基因组，比如通过花粉培养获得单倍体个体。而对于无法获得单倍体的物种，研究人员则设法从二倍体的测序数据中提取单倍体数据。

如在杂合菠萝（Ananas comosus（L.）Merr.）基因组项目中，将杂合菠萝F153与CB5 杂交，通过比较后代F1 个体与亲本F153 的测序read，分离出F153 其中一套基因组的read 进行组装。

近年来发展的10×Genomeics 技术，将大片段DNA 分子包裹进油滴添加标签后测序，产生的linked-read 保留了基因组长距离的信息，有助于构建更长的scaffold。该方案能以最少的测序和计算成本提供可用的参考基因组，已经在植物基因组中广泛应用。

在早期的基因组项目中，组装的目的是得到一个完整的单倍体参考基因组，因此只取单套基因组进行组装或者将基因组内杂合区域尽量合并。随着对基因组研究的深入，基因组单体型信息越来越受到重视，对杂合物种的基因组提出了分型组装的需求。

Falcon-unzip 是最早利用三代测序数据进行杂合基因组组装和分型的工具，其组装结果包含一个单倍体参考基因组和杂合区域的局部单体型信息，是目前杂合基因组分型最常见的呈现方式。

由于三代测序数据的读长优势，Falcon-unzip 组装的杂合物种参考基因组在contig 连续性上有显著提升，但是输出的参考基因组混合了两个单体型的序列，在基因注释等后续分析中仍然存在问题。

由于组装算法的局限或变异位点分布不均匀，单纯使用全基因组测序组装的单体型都是局部的、片段化的。借助遗传信息分离同源区域的基因组数据，再将每个区域组装成单体型，是目前解决高杂合物种组装最成功的方法。

“亲本-子代”家系测序（Triobin）是区分杂合个体内两套单体型最直接的方法。Triobin 方法将家系测序与第三代测序技术结合，使用亲本测序数据将杂合F1个体的测序数据分成两类，然后两类分别组装成两个亲本的单体型。该方法对拟南芥F1 个体（杂合度1.36%）的组装结果显示，两个单体型的完成度和质量都达到较高水平。Triobin 对来自亲本杂合区域的read 分类效果较差，更适用于纯合亲本的情况。另外，家系测序的条件在很多研究中无法满足，限制了Triobin 的应用范围。

Triobin分型方案。利用亲本测序数据的特异性K-mer 将子代的测序数据分成两份，分别组装出两个亲本的单体型

遗传群体也是基因组分型的有力工具。如杂合马铃薯分型组装的流程包含3 个阶段：（1）用HiFi测序数据组装出二倍体基因组的全部contig 序列；（2）构建遗传图谱将contig分配到12 个连锁群中，对应单倍体基因组的12 条染色体；（3）同一连锁群的contig 根据基因型分成两组，代表染色体的两个单体型。与其他分型方法类似，该流程也先区分不同染色体，再区分染色体的两个单体型。在阶段（2）中，研究人员开发了利用contig 构建连锁群的方法，使用遗传连锁群区分不同染色体，避免了对已知参考基因组的依赖，扩展了应用范围。

基于单倍体群体测序的分型方案。预先组装的BAC 片段作为分型的输入序列。研究人员测序了12 个梨的花粉细胞，并开发barcoding 的方法将BAC 片段的基因型转换成12 位的二进制条码。该方法中的BAC 序列可以替换成HiFi read 或组装的contig 等高准确率长片段

基于自交分离群体的分型方案。该方案从头组装出二倍体contig，并测序分离群体对contig 进行基因型鉴定。构建遗传图谱区分出不同的染色体，再利用基因型的相似性区分同一染色体、不同单体型的contig

高杂合基因组的组装和分型一直是基因组方法领域的难点，目前仍然没有相对简便的方法和工具。

高重复基因组组装

重复序列在物种进化和功能调控中扮演不可或缺的角色，是基因组重要的组成部分。重复序列的序列相似性高、长度不一、拷贝数变化范围大，一直是组装中的难题。

相比于二代测序技术，三代长读长测序可以跨过重复序列区域，提高重复序列的区分度，显著改善组装的连续性和重复序列组装的
完整性、准确性，这种优势在85% 的序列都来源于转座子扩增的玉米基因组中得到充分体现。PacBio 数据组装的玉米B73 基因组，相对之前基于二代组装的版本，contig 连续性提高了52 倍，并且纠正了着丝粒区的组装错误，极大改善了基因功能区注释和转座子的进化分析。

高重复序列基因组的另外一类代表是拥有巨大基因组的植物，如火炬松（Pinus taeda L.，22 Gb，82%）、挪威云杉（Picea abies，20 Gb，>71%）、银杏（Ginkgo biloba，10 Gb，80%），基因组70%以上都是重复序列，远超拟南芥（20%）、水稻（40%）等模式植物。这些裸子植物都是杂合的，可以选择单倍的配子体胚乳进行测序。

大型基因组的测序成本和组装技术难度都较大。阮珏团队利用PacBio数据和Hi-C重新组装的银杏基因组是目前发表的最高质量的裸子植物基因组。2020 年发表的大蒜（Allium sativum）基因组经历3 次全基因组复制及重复序列扩张，基因组达到16.9 Gb，其中91.3% 都是重复序列，是迄今组装的重复序列比例最高的基因组，组装方法采用了 PacBio 构建contig、10×G 文库连接成scaffold、最后用Hi-C 数据挂载染色体。杂合加州红杉（Sequoia sempervirens ）基因组（6 倍体，单倍体27 Gb）组装使用PacBio HiFi 数据和Hifiasm软件获得47.47 Gb contig 序列，N50 达到1.92 Mb，展示了高准确率三代数据在大型植物基因组组装上的应用前景。

高倍性基因组组装

由于杂交和基因组加倍导致了多倍体植物的存在，一些重要的农作物例如小麦、棉花、马铃薯等都是多倍体，其基因组的解析是影响作物育种进展的重要因素。

多倍体物种根据其形成机制分为异源多倍体和同源多倍体，异源多倍体中染色体来源于不同祖先，基因组内可以区分亚基因组，对组装干扰较少；而同源多倍体中多套染色体之间高度相似，相当于高杂合基因组，组装难度极大。异源多倍体基因组通常可以当做纯合基因组进行组装，其重点是组装后区分亚基因组。

国际小麦测序联盟解析六倍体栽培小麦（Triticum aestivum，AABBDD）基因组时利用流式细胞仪分离技术将21条染色体分离开，分别构建BAC 文库进行测序和组装。分离染色体的技术和成本要求较高，并不常见于普通植物研究。四倍体油菜基因组（Brassica napus，AACC）和四倍体花生基因组（Arachis hypogaea，AABB）的组装借助了二倍体祖先的测序数据区分出两个亚基因组。

相对二代测序数据，三代测序数据可以更好区分相似序列，组装出连续性更长的contig，再结合全基因组遗传图谱或者Hi-C 图谱区分异源染色体。2015 年发表的四倍体棉花TM-1（Gossypium hirsutum，AADD）基因组由10 万个BAC 克隆和遗传图谱组装完成，2019和2020 年发表的新版本的TM-1 基因组均由PacBio数据和Hi-C 图谱、光学图谱完成，提高了参考基因
组质量，也提供了更高效、更低成本的多倍体组装方法。

相比异源多倍体由自然杂交产生，同源多倍体通过染色体加倍形成，遗传上多套染色体都可以联会，序列上同源区域相似度较高，在组装过程中互相干扰。在二代测序数据为主的时代，为构建物种的参考基因组，只能测序单倍体材料降低组装难度或者容忍、合并杂合区域。

2017 年发表的六倍体甘薯基因组（Ipomoea batatas，B1B1B2B2B2B2）首次报道了同源多倍体植物的单倍体参考基因组和基因组30% 区域的分型结果。

2018 年同源四倍体甘蔗基因组（Saccharum officinarum，1n=4x）首次攻克了同源多倍体单体型组装的难题，其关键步骤是使用BAC 文库和三代测序数据克服序列相似性，组装出四倍体全部contig，再结合Hi-C 图谱分成4 套染色体。其中Hi-C 分型软件ALLHIC借助近缘物种高粱基因组，区分出甘蔗不同染色体的contig，再根据Hi-C 互作信号对同源contig 进行区分及锚定。

同源四倍体紫花苜蓿（Medicago sativa L.，2n=4x）基因组的解析也使用了该方案，在二倍体苜蓿（M. truncatula）基因组的辅助下，成功获得了4套分型结果。四倍体苜蓿首次使用了高准确率的PacBio HiFi 数据进行多倍体组装，获得了比甘蔗基因组更好的contig 连续性。

虽然同源多倍体的组装和分型在多个物种上都获得了成功，但是基于Hi-C的分型软件仍然要依赖单倍体的参考基因组，并且在处理差异较小的同源染色体时区分效果不明显，解析复杂同源多倍体基因组还需继续探索多种类型数据和技术整合。

植物泛基因组组装

泛基因组（pan-genome）通过对物种的不同个体进行测序及组装，尽可能地捕获该物种的全部遗传信息，为后续功能研究提供
新的参考基因组。

泛基因组构建的方式有3 种。早期研究由于测序数据较少，将个体测序数据比对到参考基因组，提取没有比对上的read 进行组装，产生的新序列迭代补充到参考基因组上，这种方式称为迭代组装（“map-to-pan”策略），如3K Rice。这种方式构建的泛基因组连续性较差，无法检测大的结构变异，重新组装的新序列也会导致泛基因组的冗余。

迭代组装泛基因组。通过将序列比对回参考基因组，提取未比对序列进行组装，迭代延长参考基因组构建泛基因组

第二种方式是从头组装个体基因组后再构建泛基因组。高质量的个体基因组是泛基因组分析的前提，因此组装成本较高。从头组装有利于系统鉴定各类群的“存在-缺失”变异集（PAV），染色体水平的比较能够揭示全基因组大规模序列重排和结构变异，为解析复杂表型的遗传机制提供更精确的信息。

从头组装构建泛基因组。对所有个体进行从头组装和注释，通过基因聚类算法构建泛基因集合，根据基因在各品系中出现的频率进行分类，得到核心基因集和可变基因集，根据线性模型绘制泛基因组累积曲线图

第三种方式是近年来快速发展的图基因组（graph-based genome），用图上的路径（path）表示不同个体中相同和差异的序列。图参考基因组的构建一般基于从头组装的基因组，将不同个体的基因组比对到线性参考基因组提取变异，所有个体的变异经过去冗余，再与线性基因组进行整合，通过多条路径的方式展示各种变异。图基因组考虑了个体间的相似性和差异性，也能更加直观的展示群体中复杂的结构变异。图基因组相对线性基因组，能够更好的协调多个基因组的坐标对应关系，以最小的数据结构保留全部个体的序列信息，将在泛基因组分析模型中获得广泛应用。

图基因组。基于参考基因组进行变异提取，整合变异数据集进行图基因组构建，灰框展示不同于参考基因组的路径，右图展示图基因组两个区域的真实图形结构

测序技术发展与组装质量

早期使用Sanger 测序BAC 等大片段克隆，再将大片段拼接成基因组。如人类、大肠杆菌、酵母、线虫及果蝇等模式物种的标准参考基因组，基因组质量较好，但成本过高。

二代测序时代组装，建库需要PCR，存在GC 偏好性，有些区域无法被二代测序覆盖，影响组装完整性。读长较短，通常构建2 kb-40 kb 的mate-paire文库以跨过重复序列等难组装区域，导致基因组含有大量gap，contig 只有几十kb。难以解决如着丝粒，端粒等基因组复杂区域，基本上是草图。

以PacBio 和Nanopore 为代表的第三代测序技术无需PCR 建库过程对基因组覆盖更均匀，实现了单分子测序，读长可以达到几十kb 到上百kb。Nanopore ultra-long 测序技术，甚至可以产生Mb 级别的read。能够跨长距离复杂区域，提供足够多标记区分相似、同源片段，将组装contig N50 提高到Mb 甚至几十Mb级别。之前使用二代组装的物种基因组，很多都使用三代数据重新进行了组装，提高contig连续性且补充之前二代测序没有覆盖的区域。

PacBio 的CLR（continuous long reads）数据原始碱基准确率为85%-92%。碱基错误随机，增加测序深度进行校正提高一致性序列准确性可达99.99%。Nanopore 的准确率与CLR相似，但错误不完全随机，纠错后准确率可以提高到99%。

但在植物杂合基因组或者高重复序列基因组中，同源或者多拷贝的序列之间差异只有1%-2%，远低于三代序列的测序错误（10%-15%），对原始数据进行纠错不可避免会合并基因组上的相似序列，在后续组装和分型过程中损失该类序列的信息。在使用CANU 等软件组装这类基因组时，有时纠错阶段会将原始数据量减少至三分之一，导致最后组装结果远小于预估基因组大小。并且原始数据纠错耗时较长，在大型基因组（>10 Gb）组装中成为短板因素。

近两年来PacBio推出的高保真HiFi read，碱基准确率>99%。高准确率显著提高了参考基因组组装的质量并且精减了原始序列纠错、组装结果抛光等步骤，是当前质量认可度最高的测序数据。HiFi read 测序时对DNA 插入片段进行多次循环读取，以牺牲长度换取高准确率，平均读长只有CLR 的1/2（10-20 kb vs 20-40 kb），并且通量只有CLR 的1/5，当前一张SMRT cell 芯片可以产出>100 Gb CLR read 数据，而只能产出20-25 Gb HiFi read 数据，无法跨过长距离复杂区域，且数据有效率较低、成本较高，这些是HiFi 数据在解决大型、复杂基因组时的局限。

基因组组装的质量在很大程度上取决于测序技术产出的片段长度和准确率。HiFi 提供了高精度单分子测序，Nanopore ultra-long 提供了超长片段，这两种技术的综合应用推动植物基因组进入端粒到端粒（T2T）的“完成图”组装时代。

在实际研究中，每个待组装的基因组所面临的技术问题和后续的分析需求不尽相同。建议在项目初期做好基因组特征评估和对组装质量的预期，再选择测序和组装策略是比较明智的做法。

本文整理自中国农业科学院深圳农业基因组研究所唐蝶老师和鹏城实验室的周倩老师特邀综述： (2021). 植物基因组组装技术研究进展. 生物技术通报, 37(6), 12.