摘要
开展水稻种质资源DNA指纹鉴定可以赋予每份种质统一的身份信息,对于查清我国资源家底、评估资源遗传基础、提高资源利用效率和保护种业知识产权等具有重要意义。本研究利用已完成全基因组DNA重测序的5374份水稻种质资源为材料,通过参考样本资源的选择、高质量SNP位点分析以及最优SNP数量和SNP组合的挑选,建立了2套水稻种质资源全基因组DNA指纹标准。通过主成分分析和系统进化树分析,指纹标准1和2选择的SNP可以代表94,197个高质量群体共有SNP进行群体遗传多样性检测;群体遗传相似度分析验证了指纹标准1和2对于开展水稻种质资源遗传相似性鉴定的有效性。本研究有望为水稻种质资源保护与利用以及种业知识产权保护等提供技术支撑,并为其他作物制定全基因组DNA指纹鉴定标准提供参考。
“DNA指纹”概念最早由英国科学家Alec Jeffreys于1985年提
近年来,随着DNA指纹鉴定技术的快速发展与种质资源的有效保护和高效利用的迫切需求,水稻等重要农作物种质资源的DNA指纹鉴定工作越来越受到重视。目前在我国国家作物种质库保存的水稻种质资源达9万余份,包括野生稻、地方品种、选育品种、品系和遗传材料以及国外引进资源等,对这些水稻种质资源构建DNA指纹图谱是当务之
水稻是我国最重要的粮食作物之一,对保障国家粮食安全具有举足轻重的地
本研究利用来自全国不同省份和不同国家的5374份水稻种质资源为基本分析群体,包括选育品种(系)、地方品种、国外引进资源以及杂草稻和野生稻等种质资源,结合深度(15×)全基因组重测序数据,全面分析SNP在染色体上的均匀分布、样本多样性和两两样本间遗传相似度等指标,通过迭代计算明确了构建全基因组DNA指纹所包括的最优SNP数量和SNP组合,提出了水稻种质资源全基因组DNA指纹鉴定方法(

图1 指纹图谱构建流程
Fig.1 Fingerprint construction workflow
(1) DNA提取与质检:使用 DNAsecure Plant Kit(TIANGEN)进行 DNA 提取,使用NanoDrop 2000 分光光度计(Thermo Fischer Scientific)、琼脂糖凝胶电泳和Qubit荧光计(Invitrogen)3种方法对提取的DNA进行定量和质检。(2)文库构建:检验合格的DNA样品通过Covaris破碎仪随机打断成长度为350 bp的片段。采用 TruSeq Library Construction Kit 进行建库,严格使用说明书推荐的试剂和耗材。DNA片段经末端修复、加ployA尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。(3)文库库检:文库构建完成后,先使用 Qubit2.0 进行初步定量,稀释文库至 1 ng/µL,随后使用 Agilent 2100对文库的插入片段大小进行检测。插入片段大小符合预期后,使用qPCR方法对文库的有效浓度进行准确定量(文库有效浓度>2 nmol/L),以保证文库质量。(4)上机测序:库检合格后,把不同文库按照有效浓度及目标下机数据量的需求混合后,利用 Illumina NovaSeq6000测序平台进行 PE150 模式测序。
(1)数据质控:利用Fast
为获得高质量的SNP标记,按照如下标准进行过滤:(1)SNP的Reads支持数不低于8;(2)位点比对的质量值(MQ, RMS mapping quality)不低于40;(3)基因型的质量值(GQ, genotype quality)不低于 5;(4)每个位点的样品缺失率为0;(5)每个位点的最小等位基因频率MAF>0.2;(6)每个位点的杂合度<0.05;(7)独立标记位点的连锁强度(
使用GCTA软
前期,本实验室(中国农业科学院作物科学研究所水稻种质资源研究组)利用重测序技术对5374份水稻种质资源进行了基因型精准鉴
根据5374份种质资源的地理来源与种质类型,从中选取了3960份资源用于SNP位点筛选的参考群体。以6,819个高质量的独立SNP为基础,根据标记在染色体上的均匀分布度、标记在群体中的多样性表现和两两样本间遗传相似度(≤92
为了提高种质资源指纹鉴定效率,首先构建了指纹标准1,每条染色体包括20个SNP,共240个位点;较少的位点数是为了提高后续指纹数据库比对运算的速度。为了明确最有效的SNP,以染色体分布均匀性为基础,每次抽取240个SNP,随机抽取20次,计算两两样本间的遗传相似度,以遗传相似度≤92%为标准统计可区分的样本数。其中,第11次抽样的SNP组合可区分的样本数最多,为2907个样本(

图2 20次随机抽样的SNP组合可区分的样本数量
Fig.2 Number of samples distinguishable by 20 randomly sampled SNPs

图3 指纹标准1 SNP标记在染色体上的分布
Fig.3 Distribution of SNP markers on chromosomes in fingerprint standard1
在指纹标准1的基础上构建了指纹标准2,目的是以最少的SNP标记区分最多种质资源。以指纹标准1的240个SNP为基础,每轮增加12个SNP(每条染色体1个SNP),考虑SNP的染色体分布均匀性,随机抽取20次,每次抽样都进行2000次迭代计算,然后基于增加后的SNP计算两两样本间的遗传相似度,以遗传相似度≤92%为标准统计可区分的样本数量。在标记增加到第313轮(924个SNP)的第11次抽样时可区分的样本数最多,为3730个样本(

图4 随机抽样和迭代计算的SNP组合可区分的样本数量
Fig.4 Number of samples distinguishable by the randomly sampled and iterative calculated SNPs

图5 指纹标准2 SNP标记在染色体上的分布
Fig.5 Distribution of SNP markers on chromosomes in fingerprint standard 2
为了评估建立的指纹标准1和2能否有效检测群体的遗传多样性,针对5374份水稻种质资源,分别利用94,197个高质量的群体共有SNP、指纹标准1的240个SNP和指纹标准2的924个SNP进行系统进化关系和主成分聚类分析。
根据系统进化树分析,基于94,197个高质量群体共有SNP将5374份水稻种质资源划分为籼、粳稻两个主要类群,每个类群内部又划分为选育品种、地方品种、杂草稻和野生稻等(

图6 基于94,197个SNP (A)、指纹标准1的240个SNP (B)和指纹标准2的924个SNP (C) 分析5374份水稻种质资源的系统进化关系
Fig.6 Phylogenetic relationship of 5374 rice accessions built from 1,000 randomly selected 94,197 SNPs(A), 240 SNPs(B) and 924 SNPs (C)
根据主成分分析,基于94,197个高质量的群体共有SNP将5374份水稻种质资源划分为粳、籼稻两个主要类群,每个类群内部又分为若干小类群(

图7 基于94,197个SNP (A)、指纹标准1的240个SNP (B)和指纹标准2的924个SNP (C) 分析5374份水稻种质资源的主成分聚类图
Fig.7 PCA plots of 5374 rice accessions built by 94,197 SNPs(A), 240 SNPs (B) and 924 SNPs (C)
为了验证建立的指纹标准的检测效果,针对筛选的3960份参考群体,分别利用指纹标准1和2的SNP计算了两两样本间的遗传相似度。基于指纹标准1的SNP位点,3960份水稻资源的两两遗传相似度在11.67%~99.58%之间,均值为55.34%,中位数为51.67%。小于92%的样本对有7832535对,占总样本对的99.920%;大于92%且小于97%的样本对有6190对,占总样本对的0.079%;大于97%的有95对,占总样本对的0.001%(

图8 基于指纹标准1的240个SNP (A)和指纹标准2的924个SNP (B) 分析3960份水稻种质资源两两间遗传相似度
Fig.8 Pairwise genetic similarity 3960 rice accessions calculated by 240 SNPs (A) and 924 SNPs (B)
基于指纹标准2的SNP位点,5374份水稻资源的两两遗传相似度在18.29%~96.75%之间,均值为54.90%,中位数为50.43%。小于92%的样本对有7838504对,占总样本对的99.996%;大于92%且小于97%的样本对有316对,占总样本对的0.004%;没有大于97%的样本对(
本研究利用水稻种质资源DNA第二代重测序数据,以群体共有的6819个独立SNP为基础,根据SNP在染色体上的均匀分布、多样性表现和两两样品遗传相似度等3个方面分析,构建了两套DNA指纹标准。第1套DNA指纹标准包括240个SNP,第2套DNA指纹标准包括924个SNP。在最优SNP数量和SNP组合筛选时,根据92%的相似度阈值,指纹标准2可鉴别的资源份数多于指纹标准1的,可鉴别样本总数的94.2%,但是仍然没有达到100%。可能的原因是,虽然从地理来源和种质类型上,在一定程度上规避了参考样本的同质性,但是不能避免有些资源通过不同区域相互引种而产生的高遗传相似性。利用指纹标准1、2选择的SNP位点,对5374份种质资源进行系统进化树和主成分分析,结果显示指纹标准1和指纹标准2的SNP的聚类效果与利用94,197个高质量的群体共有SNP标记聚类结果一致,说明本研究SNP位点选择的有效性。
本研究构建的两套DNA指纹标准具有广泛的应用前景。开展水稻种质资源DNA指纹鉴定,不仅能赋予每份种质资源独一无二的身份信息,而且还可以将拟入库资源与库存资源进行比对,提高种质资源收集保护效率。目前,利用两套DNA指纹标准,已经构建了超过10,000份水稻种质资源的指纹图谱数据库,并开发了查询和相似度比对系统(即将上线)。通过标准的DNA指纹鉴定,不仅可以方便、快速、准确的查询和比对两两样本或者样本与数据库种质的遗传相似度,还特别适合《新种子法》的实质性派生品种的界定。
与现有方法比
参考文献
Jeffreys A J, Wilson V, Thein S L. Hypervariable minisatellite regions in human DNA. Nature, 1985, 314(6006):67-73 [百度学术]
刘旭, 李立会, 黎裕. 方沩. 作物种质资源研究回顾与发展趋势. 农学学报, 2018 (1): 1-6 [百度学术]
Liu X, Li L H, Li Y, Fang W. Crop germplasm resources advances and trends. Journal of Agriculture, 2018 (1): 1-6 [百度学术]
韩龙植. 水稻种质资源基础性工作研究进展. 植物遗传资源学报,2013, DOI:10.13430/j.cnki.jpgr.2013.01.023 [百度学术]
Han L Z. Research progress of basic work on rice germplasm resources. Journal of Plant Genetic Resources, 2013, DOI: 10.13430/j.cnki.jpgr.2013.01.023 [百度学术]
Surridge C. Rice cultivation: Feast or famine? Nature, 2004, 428(6981):360-361 [百度学术]
庄杰云, 施勇烽, 吕波, 陈能, 杨坤, 应杰政, 曾瑞珍. NY/T 1433-2007, 水稻品种鉴定 DNA指纹方法. 北京:中国农业出版社,2007 [百度学术]
Zhuang J Y, Shi Y F, Lv B, Chen N, Yang K, Ying J Z, Zeng R Z. NY/T 1433-2007, Identification of rice (Oryza sativa L.) varieties using microsatellite markers. Beijing: China Agriculture Press, 2007 [百度学术]
徐群, 魏兴华, 庄杰云, 吕波, 袁筱萍, 刘平, 张新明, 余汉勇, 堵苑苑. NY/T 1433-2014, 水稻品种鉴定技术规程 SSR标记法. 北京:中国农业出版社,2014 [百度学术]
Xu Q, Wei X H, Zhuang J Y, Lv B, Yuan X P, Liu P, Zhang X M, Yu H Y, Du Y Y. NY/T 1433-2014, Protocol for identification of rice varieties-SSR marker method. Beijing: China Agriculture Press, 2014 [百度学术]
魏兴华, 刘丰泽, 韩斌, 徐群, 冯旗, 赵妍, 支巨振, 周泽宇, 杨窑龙, 冯跃, 任雪贞, 王珊, 章孟臣. NY/T 2745-2021, 水稻品种真实性鉴定 SNP标记法. 北京:中国农业出版社,2021 [百度学术]
Wei X H, Liu F Z, Han B, Xu Q, Feng Q, Zhao Y, Zhi J Z, Zhou Z Y, Yang Y L, Feng Y, Ren X Z, Wang S, Zhang M C. NY/T 2745-2021, Rice (Oryza sativa L.) varieties genuineness identification-SNP based method. Beijing: China Agriculture Press, 2021 [百度学术]
彭海, 方治伟, 李论, 马爱进, 周俊飞, 温常龙, 李甜甜, 唐浩, 陈红, 崔野韩, 张嘉楠, 贾英民, 徐娜, 宋书峰, 胡美霞, 符习勤, 赵治海, 梁勇, 徐振江, 高利芬, 陈利红, 韩瑞玺, 张蝶, 张静, 余进文. GB/T 38551-2020, 植物品种鉴定 MNP标记法. 北京:中国标准出版社,2020 [百度学术]
Peng H, Fang Z W, Li L, Ma A J, Zhou J F, Wen C L, Li T T, Tang H, Chen H, Cui Y H, Zhang J N, Jia Y M, Xu N, Song S F, Hu M X, Fu X Q, Zhao Z H, Liang Y, Xu Z J, Gao L F, Chen L H, Han R X, Zhang D, Zhang J, Yu J W. GB/T 38551-2020, Identification of plant varieties-MNP marker method. Beijing: China Standards Press, 2020 [百度学术]
Chen S, Zhou Y, Chen Y, Gu J. Fastp: An ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 2018, 34(17):i884-i890 [百度学术]
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R, 1000 genome project data processing subgroup. The sequence alignment/map format and SAMtools. Bioinformatics, 2009, 25(16):2078-2079 [百度学术]
Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 2009, 25:1754-1760 [百度学术]
van der Auwera G A, Carneiro M O, Hartl C, Poplin R, Angel G D, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M A. From FastQ data to high confidence variant calls: The genome analysis toolkit best practices pipeline. Current Protocols in Bioinformatics, 2013, 43(1110):11.10.1-11.10.33. DOI: 10.1002/0471250953.bi1110s43 [百度学术]
Yang J, Lee S H, Goddard M E, Visscher P M. GCTA: A tool for genome-wide complex trait analysis. The American Journal of Human Genetics, 2011, 88:76-82 [百度学术]
Vilella A J, Severin J, Ureta-Vidal A, Heng L, Durbin R, Birney E. Ensembl compara gene trees: Complete, duplication-aware phylogenetic trees in vertebrates. Genome Research, 2009, 19:327-335 [百度学术]
Han B, Cui D, Ma X D, Cao G L, Zhang H, Koh H J, Han L Z. Evidence for evolution and selection of drought-resistant genes based on high-throughput resequencing in weedy rice, Journal of Experimental Botany, 2022, 73(7): 1949-1962 [百度学术]
Cui D, Zhou H, Ma X D, Lin Z C, Sun L H, Han B, Li M M, Sun J C, Liu J, Jin G X, Wang X J, Cao G L, Deng X W, He H, Han L Z. Genomic insights on the contribution of introgressions from Xian/Indica to the genetic improvement of geng/japonica rice cultivars. Plant Communications, 2022, 3(3):100325 [百度学术]