蓝莓种质资源鉴定与新种质创制岗
李嘉琦 刘有春 魏鑫 杨艳敏 杨玉春 王升 高树清 林佳琦 徐艺格 孙斌 张舵 王兴东 王宏光 刘成
我国是目前世界上最大的水果生产国和消费国,种植面积和产量均居世界第一。全国共有21个国家果树种质资源圃,保存果树种质资源2.3万余份,是多种果树的起源演化中心之一,同时也是世界上最大的果树资源国。然而,我国的果树资源仍然存在数量不足、覆盖面积不足、缺少外国种质等问题。据调査发现,自1950年以来,我国育成了约2000多个果树品种,但在实际生产中这些品种的应用十分有限,这主要是由于在种质资源利用方面,骨干亲本的重复利用导致品种间基因同质性高、遗传背景狭窄。此外,我国的果树育种以传统的杂交育种为主,现代育种技术与理论基础结合不够紧密,未能实现分子标记辅助育种、基因编辑、全基因组选择等实用化技术突破。我国的果树产业与先进国家之间存在一定差距,尤其是突破性优良品种方面,需加强对优异野生资源的挖掘利用,加强高效育种技术理论研究和实践应用,以高效培育出遗传背景丰富、品质优异的特色品种,调整产业品种结构、引领产业发展。
全基因组关联分析(genome-wide association study,GWAS)是利用连锁不平衡(linkage disequilibrium,LD)为理论基础,通过大样本群体中的表型变异和多态性标记展开统计分析,定位影响复杂性状的基因或基因组区域,是一种成本低、精度高的基因分型方法,通过高密度单核苷酸多态性序列标记(single nucleotide polymorphism,SNP)在全基因组的分布,至少找到1个能够影响目标性状的数量性状位点(quantitative trait locus,OTL),从而实现目标性状的定位、新标记开发和新基因挖掘,GWAS已成为研究植物种质资源和育种的重要手段和方法。在作物领域,关联分析主要应用于水稻稻瘟病、小麦穗粒数、玉米穗部性状、油菜角果粒数、棉花产量、大豆耐低磷性等。近年来,随着全基因重测序成本大幅度降低,果树基因组序列陆续公布,GWAS已应用于包含樱桃、桃、苹果、梨、葡萄、柑橘等果树研究中。本文基于全基因组关联分析的基本原理和影响因素概述,重点阐述了GWAS在果树重要性状定位的最新研究进展,探讨了果树GWAS未来研究趋势。
1 全基因组关联分析的基本原理
连锁不平衡(LD)是指在一段基因序列中,2个不同基因座之间的2种等位基因非随机地联合存在的现象。LD的存在会影响全基因组关联分析的精度和可靠性,其程度的高低受多种因素影响,包括基因座的物理距离、遗传多样性、种群历史等。在关联分析中,通常使用D'(standardized disequilibrium coefficients,D')和r2(squared allele-frequency correlation,r2)2个参数来衡量基因座间的LD程度。D'值范围在0~1之间,表示2个基因座间的非随机联合存在程度;r2值也在0~1之间,表示2个基因座在不同群体中的等位基因频率的协方差,值越高表示LD程度越高。全基因组关联分析利用LD的特性,对大规模遗传数据进行统计分析,寻找基因座与性状之间的关联,从而找到可能影响性状的基因或基因组区域具有重要意义。
在GWAS分析中,r2被认定为是衡量LD的首选指标,用于评估标记和遗传变异性状之间的相关性。LD衰减是指随着物理距离的增加,基因座之间的r2值逐渐减小的过程,表示从连锁不平衡状态到平衡状态的转变。一般情况下,驯化程度较高的群体,其LD衰减距离较大。
2 全基因组关联分析的影响因素
2.1 群体大小和结构
群体大小直接影响表型和基因型之间的关联关系,大型群体具有增强友系关联的作用。然而,特定的育种亲本及其后代可能会影响群体结构,从而影响群体中SNP与目标性状之间的关联,是因为估计的育种值会显著高于其他亲本材料,并且在亲本后代组成的亚群中等位基因频率更高,因此在特定亚群中可能存在假阳性结果。为了平衡遗传多样性和等位基因频率,选择全球范围内的多样性个体组成大群体是最佳选择
2.2 表型变异
表型变异是关联分析的重要组成部分,为了保证分析的准确性,表型数据应符合正态分布。通常情况下,绘制箱线图可以排除极端异常值。为了减少误差,经常采用采集多年多点表型数据的方式,但是这种方法可能会受到环境的影响,从而导致遗传力下降。为了解决这个问题,可以使用最佳线性无偏预测(BLUP)和最佳线性无偏估计(BLUE)等方法进行数据归一化处理,调整基因型x环境间的相互作用,上述方法可以有效地减少误差并提高分析的准确性。
2.3 统计模型
根据基因控制的数量不同,可以将性状分为质量性状和数量性状。对于质量性状,通常采用Logistic回归模型进行关联分析。而对于数量性状关联分析多采用一般线性模型(GLM)和混合线性模型(MLM)2种方法,GLM模型通过引入协变量来解释基因型在群体中的方差,而MLM则在GLM的基础上加入群体结构和个体间关系,以减少假阳性的影响。
3 GWAS在果树中的应用
对于果树,果实品质(内在品质和外观品质)和抗性是种质资源和育种研究经久不衰的方向,以下综述了GWAS在仁果类、核果类、柑类、浆果类及其他果树上的研究应用,分析现有文献,关联分析相关研究也主要集中在品质性状评估和抗性基因鉴定等方面,详见表1。
3.1 仁果类果树
苹果是仁果类果树中的代表性树种,我国苹果栽培面积和产量居世界首位,果实品质、病害、胁迫响应机制等一直是苹果研究的重点,GWAS也不例外,但相关报道较少。果实香气受糖酸含量、着色、重量、外界环境等多因素影响,是苹果重要的品质因子。研究人员基于气相色谱-质谱法(gas chromatography-mass spectrometry,GC-MS)从149个苹果样本中鉴定出49种挥发性有机化合物(volatile organic compounds,VOCs),经关联分析发现,在2号染色体上有和乙酸丁酯、乙酸己酯相关的显著性标记,同时检测到3个与收获时期显著关联的SNP位点,其中1个SNP(chr3:31409362)位于果实成熟转录因子NAC18.1的编码区。苹果褐斑病(apple marssonina blotch,AMB)是由苹果双壳菌引起的病害,可在叶片和果实上发生,导致早期落叶、降低果实质量、影响树木活力和生长。通过全基因组关联分析探索影响AMB疾病感染的基因,发现5个极显著SNP位点与AMB抗性相关,LOC103442381和LOC103443382这2个SNP位点相关的候选基因可能与AMB抗性密切相关。叶片蜡质能够阻止非气孔水分流失,从而增强植株的抗寒、抗旱能力,CAO等基于GC-MS方法分析123份苹果新鲜叶片中蜡成分并进行GWAS,筛选得到了大量显著性位点,并结合GO富集分析,研究发现7个与叶蜡合成和运输相关的基因,分别是MdSHN1、MdWSD1、MdLTP4、MdRDR1、MdACBP6、MdNLE和MdABCG21,以上研究及结果为苹果育种中品质、抗病性基因挖掘及分析标记开发提供了重要参考。
我国梨栽培面积和产量占世界一半以上,但存在着果实品质较差经济效益低的问题,开展梨品质资源鉴定、性状遗传基础研究从而进行性状改良遗传育种,解决梨口味淡、品质差的弊端具有重要意义。研究者基于312个沙梨初花期、果实发育期和营养生长天数等果实物候期性状、单果重、石细胞含量、果皮颜色等果实品质性状的GWAS,发现了与物候期相关的5个基因座和与果实品质相关的37个候选基因座,其中候选基因PbrSTONE的功能被证实参与了梨石细胞形成的调控,这项研究为利用GWAS研究果实复杂生物学性状提供了新思路。尹明华等对2种上饶早梨品种进行全基因组测序和转录组测序,将获得的基因组数据和转录组数据进行关联分析,发现共有1561个基因在上饶梨中表达,其中198个转录本差异显著,部分基因具有高表达差异,为上饶梨品种资源鉴定和品种选育提供了理论基础。Minamikawa等也通过GWAS鉴定到与果实质量、酸含量、果实表皮颜色、霉心病、采前果实落果等性状显著关联的位点,对于探寻位点上控制上述性状的关键基因提供了参考综上所述,全基因组关联分析在有效鉴定果实发育中重要品质性状的遗传位点、挖掘调控果实发育过程相关基因等中发挥了重要作用,也为其他性状的相关研究提供了参考和思路。
综上所述,全基因组关联分析在有效鉴定果实发育中重要品质性状的遗传位点、挖掘调控果实发育过程相关基因等中发挥了重要作用,也为其他性状的相关研究提供了参考和思路。
3.2 核果类果树
核果类果树包含桃、李、杏、樱桃等。纵观产业发展,传统桃、李、杏、樱桃品种普遍因果肉软、不耐运贮、货架期短及综合品质差等因素而面临淘汰,产业亟需品质好、硬度高的优良品种。此外,李痘病和褐腐病是危害核果类果树的主要病害,李痘病甚至会造成毁树毁园,褐腐病主要危害果实,严重时造成绝产,所以加强种质资源发掘利用、研究果实品质性状遗传基础、开发与性状关联的标记开发等,对于核果类果树品质及抗性选育具有重要意义。
研究人员利用由野生品种、地方品种、育成品种组成的129份桃种质进行高通量测序,并对果肉质地、果实特性、种子特性等进行GWAS,筛选得到的关于果肉质地、果实形状和果肉黏度等性状的峰值信号与连锁分析结果相一致,并发现在桃的驯化和改良过程中,一些与果实重量和可溶性固形物含量相关的基因组区域与预测的选择性清除相重叠。对于樱桃而言,果皮颜色丰富,可分为黄色、红黄色、红色、紫红色、红紫色、紫色樱桃,樱桃果皮颜色呈红色与花青苷的含量与组成有关。为了提高甜樱桃标记密度,以235份甜樱桃种质为试验材料进行GWAS,发现樱桃果实颜色和果肉颜色相关的候选基因MYB10.1存在单核苷酸缺失,位于chr3_23995550位点上,与最显著位点chr3_23939472相距约55 kb,对黄色樱桃果实进行测序后,发现3号染色体上存在一段90 kb的缺失与果实颜色有关其中包括5个MYB10转录因子,这些结果对于了解樱桃的遗传机制和DNA辅助育种具有重要意义。
李痘病毒(plum pox virus,PPV),别名莎卡(sharka),是李属(Prunus L.)植物中危害最大的病毒之一。为进一步了解杏树抗PPV的遗传特性,Mariette等利用包括22份抗性材料在内的72份杏育种资源进行全基因组SNP分型,通过对56 708个SNP进行GWAS,共鉴定到38个显著性SNP其中有34个SNP位点的候选基因与植物-病毒的相互作用有关,基因pp022195编码BTB/POZ-MATH-TRAF样蛋白,ppa012234m推测编码丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)双特异性(丝氨酸/苏氨酸和酪氨酸)磷酸酶。这些候选蛋白表明植物降解途径存在与杏抗PPV相关的潜在抗病毒机制。褐腐病(Monilinia spp.)是一种核果病害,会导致果实腐烂,造成产量严重损失。为了确定与褐腐病相关的基因组区域,研究人员选用了26个具有Bolinha品种抗性的桃栽培品种及其子代作为试验材料,在2年中对损伤和非损伤果实的褐腐病严重程度指数进行GWAS,鉴定出了4个与果肉和10个与果皮耐腐相关的SNP位点,确定了25个与抗病性相关的候选基因,该报道研究结果有助于深入了解褐腐病的遗传机制,为DNA辅助育种提供了重要基础。
3.3 柑橘类果树
相比较于其他果树,柑橘已进入分子育种时代,国际上已经公布14个柑橘基因组,进入功能基因组和泛基因组时代。目前针对柑橘的农艺性状已经展开多项全基因组关联分析研究,获得了与果实重量、果皮颜色和果肉硬度、花药颜色等多种表型相关的显著性位点。国内外均有相关报道,根据Minamikawa等的研究,基于111个柑品种组成的亲本群体和676个F1代个体组成的育种群体,获得1841个SNP的基因分型,对包括果实重量、果皮颜色、果实硬度和种子数量等的17个农艺性状进行GWAS,发现最显著的SNP位于8号染色体,并与果实重量性状相关联,且该SNP位于QTL作图研究中的FW8区域内。Imai等对110份柑橘材料的8种果实品质性状进行全基因组关联分析,在2309个SNP中鉴定到7个显著相关的QTL区域,包含与果实重量相关的QTL 4个,与果皮颜色、果肉硬度和囊硬度相关的QTL各1个。孙珍珠利用240份宽皮柑橘与112768个SNPs进行GWAS,以果形指数、果皮光滑度、花药颜色等10个重要性状为表型指标共鉴定到35个显著性SNP标记,其中与花药颜色性状相关的显著性位点最多,共10个。此外,还找到了55个候选基因,分布在NW006262339.1和NW006262022.1等2条染色体上。这些QTL的发现和候选基因的发掘有望应用于柑橘杂交种的培育中。
3.4 浆果类果树
分析文献报道发现,浆果类果树的全基因组关联分析主要集中于葡萄的研究中,其他浆果类果树的GWAS处于起步阶段。鲜食葡萄育种的目标主要包括有香气、自然大粒、耐贮运,因而育种家在品种选育过程中更多地关注果实形态、果实重量、果实开裂程度等果实重要农艺性状。研究表明浆果果形性状可能受多基因协同调节,基因VIT 12s0134g00230和VIT 02s0025g01360通过调节植物激素影响果实形态,泛素连接酶基因VIT 03s0088q01090和VIT 10S0003q04300与多种浆果形状相关。Guo等对179份葡萄种质进行了全基因组测序,并将32311个SNP与果实发育期、果实重量、果实形状等8个性状进行GWAS,筛选出多个显著性标记。其中,在2号染色体上检测到与葡萄果皮颜色相关的mybA转录因子,以及在16号染色体上检测到2个与果实发育期相关的显著性标记,这些与浆果性状密切相关的标记有助于葡萄育种。裂果是果实生长发育过程中常见的现象,严重影响果实产量和品质。Zhang等通过2019年和2020年连续调査,对浆果开裂率、浆果开裂指数和浆果开裂类型进行关联分析,鉴定到5个与浆果开裂指数相关的SNP2个与浆果开裂类型相关的SNP这些位点分布于4条染色体上,与10个候选烈果基因相关。
蓝莓和树莓作为新兴水果,相较于其他果树历史较短,参考基因组公布时间也比较晚,全基因组关联分析相关研究仍处于起步阶段。在南高丛蓝莓品种中,Ferrão等利用源自92个南高丛组合的886份杂交后代为试验材料,以10种脂肪酸衍生物、5种萜类化合物、2种苯类化合物为表性指标,利用GWAS分析成功鉴定到蓝莓上有519个显著性SNPs与属于不同代谢途径的11个挥发性有机化合物(voatile organic compounds,VOCs)相关。他们证明了VOCs受几个主要的基因组区域控制,其中一些区域含有生物合成酶编码基因,部分VOCs调节消费者偏好,为育种提供了方向。为简化生产管理难度,树莓品种的无刺性状也备受关注。Khadgi和Weber以92个树莓样本为材料进行测序,鉴定了4个极显著SNP其中SNP4_35148226被鉴定为对无刺性状有积极贡献,为研究树莓无刺性状基因组区域奠定了基础。
草莓枯萎病(Fusarium wilt)是一种由真菌引起的突然传播性疾病,严重影响全球草莓生产,Pincot等通过对565份重要草莓种质的14408个SNP进行全基因组关联分析,在2号染色体的2.3 Mb区间内检测到与草莓枯萎病基因Fw1连锁不平衡的14个SNP最显著SNP解释了85%的表型变异,预测了97%的抗性,广义遗传力为0.96。
综上,研究发现的SNP位点有望在品种改良中发挥重要作用,为推进通过分子标记辅助育种和基因选择来提高核果类果树的品质、抗病性等奠定了基础。
3.5 其他经济类果树
除上述大宗类果树外,在甜瓜、枣、橄榄等经济类果树中也逐步开展了全基因组关联分析研究。其中在甜瓜中,研究者基于48个商业东方甜瓜品种的叶片、叶柄、花序、果实等48个表型进行了GWAS,新发现了2个分别位于1号染色体和8号染色体上的OM1_30331998和OM8_81597532个SNP位点与性别表达相关,并预测到4个潜在候选基因MELO3C015898、MELO3C015904、MELO3C024563和MELO3C024565与东方甜瓜的性别表达相关,这些结果为研究甜瓜性别表达的分子遗传机制提供了基础。在枣中,研究人员基于180份中国枣的9个品质性状开展关联分析,成功鉴定出45个与果实大小、果核大小和果实开裂相关的SNP标记,并通过基因功能注释,鉴定出了21个候选基因,这些基因参与细胞扩增、非生物胁迫反应、激素信号和生长发育等过程。在橄榄中,Kaya等对来自美国和土耳其共183份橄榄材料,利用GWAS技术探究了叶片长度、叶片高度、果实重量、果核重量和果肉果核比5个性状与SNP的相关性,共发现52个显著性标记与叶片长度、果实重量、果核重量和果肉果核比相关联,预测到19个候选基因,大部分的基因注释是参与生理发育过程的蛋白质。
综上,通过全基因组关联分析,可以找到与目标性状密切相关的位点,挖掘基因功能,从而在解析果树品质形成机制、遗传驯化规律、病害发生机理及鉴定种质资源、分析基因调控网络等方面发挥重要作用。上述研究为理解核果类果树李痘病、褐腐病等重要病害的遗传机制及品质等农艺性状候选基因的筛选研究提供了重要基础,为推动分子标记辅助选择(marker-assisted selection,MAS)育种的进程提供了重要参考。
4 GWAS的发展应用
GWAS作为定位性状相关位点、基因的有效工具,在植物中最早被应用于糖料作物海甜菜的研究,距今已有20多年,随着对植物基因组认识的不断深入,GWAS相关的行生技术也已被广泛应用,为研究提供了更多的思路和选择。目前在植物中应用比较广泛的GWAS衍生技术主要集中于对基因型数据进行改变,以及关联分析和其他方法的结合运用2方面,从而更好地研究性状的遗传变异趋势,弥补GWAS的不足。以下综述结构变异(structural variant,SV)、转座子(transposable element,TE)及转录组关联分析(TWAS)与GWAS联合运用的研究进展。
结构变异(SV)包括插入、缺失、重复和倒位,最初被定义为超过1 kb大小的插入、缺失和反转,但随着人类基因组测序的常规化,结构变异已经包括长度大于50 bp的事件。随着泛基因组研究的增多,基于SV开展GWAS,已成功应用于大豆、玉米、油菜、桃、水稻、番茄等植物性状的研究中,证明与传统的SNP相比,SV具有更大的表型效应,基因或调控序列中出现的SV基因可能会影响表达,进而影响农艺性状的变化。
转座子(TE)活性通过转位、插入、切除、染色体断裂和异位重组产生基因和基因组结构的变化,通常伴随着基因活性的改变。有研究证明,使用TE标记进行GWAS比使用SNP标记连锁不平衡的假阳性低,基因组扫描显示了与农艺性状相关的TE阳性选择,在番茄中用TE插入多态性(TE insertions polymorphisms,TIP)进行关联分析,确定了至少40个与主要农艺性状或次级代谢产物的极端变异密切相关的TIP,大部分TE插入都是低频变体,很少被SNP标记。玉米zmCCT基因编码含有CCT结构域的光周期相关蛋白质,通过GWAS在启动子中检测到CACAT样转座子,显著缩短开花时间,TE插入发生在驯化之后,在相关的连锁不平衡区块内产生了强烈的选择性清除。
全转录组关联分析(transcriptome-wide association study,TWAS)是基于GWAS的统计分析,将基因表达量与表型性状相关联,识别与复杂性状相关联的顺式调节表达基因,补充研究GWAS定位到的基因与关联性状背后的生物学机制。GWAS+TWAS联合运用的方法已经在多种植物中得到应用,包括玉米、棉花、水稻、油菜等,首先通过GWAS与功能基因组学相结合鉴定调节基因,其次利用TWAS研究调节基因的表达量与复杂性状之间的关联,对鉴定到的基因进行贡献率排序,从而更全面地了解基因调控机制和复杂性状的遗传基础。
综上,利用SV、TE开展关联分析以及GWAS+TWAS等衍生应用在扩大表型效应、降低连锁不平衡的假阳性、关联基因表达量与复杂性状的遗传基础等方面具有优势,弥补了GWAS单独分析的不足。
5 展望
GWAS是一种挖掘功能基因/位点的有效研究手段,其优势在于不需要任何先验信息来衡量遗传变异和表型多样性之间的关联便可以挖掘种质资源中尚未发现的有价值的遗传变异,为今后的育种工作提供新的遗传变异,为实现品种改良,开发具有理想性状的新品种奠定了前期基础。
纵观水稻、玉米和大豆等大田作物,除了鉴定显著性位点,更多的是关注性状的遗传调控机制,挖掘功能基因所处的信号调节通路。如利用大豆GWAS得到的显著性关联区域构建遗传调控网络,发现有部分性状可能共同遗传,受同一个显著性区域调控,为一因多效作用的结果;在水稻研究中发现,OsGSK2基因是参与油菜素甾体信号(brassinosteroids,BR)传导的保守激酶,通过协调独脚金内酯和油菜素甾醇调节中胚轴长;MRG702基因、粒宽基因GW5在籼稻、粳稻2个栽培稻群体中受选择,参与BR信号通路的调控;对8个植物代表性性状进行PCA,利用PC1作为因变量进行GWAS研究,发现SPINDLY基因被鉴定为通过抑制赤霉素(GA)信号传导来调节水稻结构。与之相比在果树中的研究应用还相对滞后,可借鉴、参考其思路和方法。
果树开展GWAS研究的瓶颈因素包括以下内容:(1)样本数量和种质资源:GWAS研究需要大量的样本和种质资源,而果树因保存资源受试验地面积影响,多数野生资源、地方品种以原生态就地保存为主,分布广泛,集中获取难度大。(2)基因组数据:GWAS研究需要高质量完整的基因组数据进行分析,但是果树基因组数据的获取、分析和注释仍存在困难,这也制约了GWAS研究的深入开展。(3)环境因素的影响:果树对于环境的适应性很强,而环境因素对果树性状的影响比其他作物更为复杂多变,环境因素可能会掩盖或干扰GWAS的结果。(4)遗传背景和多倍体物种分析:果树多数为多倍体物种,造成基因型分析和遗传背景建立存在难度,同时多倍体物种还需要考虑亲代效应、杂种优势、杂合子丧失等问题。这些因素都增加了果树GWAS研究的复杂性。针对这些问题,需要通过多种手段解决,如建设多样化的果树种质资源库,改进数据测序技术和生物信息学分析方法,开展多个作物种类的GWAS研究以提高GWAS的可靠性和推广应用。
综上所述,随着苹果、桃、梨、蓝莓等果树基因组的公布,在果实品质性状评估、抗性基因鉴定等方面发挥了重要作用。此外,果树上GWAS研究目前相对集中在核果类和仁果类果树中,而对于树莓、蓝莓等树种的GWAS研究领域仍有大量空白需要填补。因此,在今后的研究中,开展结构变异、转座子层面的关联分析,以及将GWAS研究与QTL定位、转录组、基因选择、基因编辑、功能基因解析等多种方法结合在一起,将更有利于实现基因组学辅助育种和基于基因组学的技术对果树进行遗传改良。