济南综合试验站
王鹏飞 王咏梅 吴新颖 陈迎春
摘 要:SSR (Simple sequence repeats)也被称作微卫星(microsatellite)或短串联重复(short tandem repeats ;STRs)。是一种PCR-based的标记。葡萄基因组的版本不断更新,而在葡萄中关于基于全部蛋白编码基因的SSR鉴定尚未被研究。本研究从葡萄(Vitis vinifera L.)的29971个编码蛋白的基因中,发现了4337个含有SSR基因,5384个SSR。葡萄蛋白编码基因SSR的重复基元(Repeat motif)共有96种。出现最多的重复基元是A/T。在二核苷酸SSR的重复基元中出现最多的是AG /CT。其中很多基因具有密码子偏好性,而突变压力是影响这些基因的密码子使用偏好性的因素。我们对这些基因进行了GO功能注释,KEGG功能注释以及结构域分析。在这些基因中,我们发现了很多与次级代谢产物的合成与代谢,黄酮或花色苷合成,植物器官发育和形态,以及生物与非生物胁迫的耐受等密切相关的基因,其中包括MYB,Hsf,WRKY,NBS以及TPC等家族的转录因子。我们的结果为未来SSR分子标记的开发以及葡萄复杂农艺性状位点(QTL)的研究奠定了基础。
关键词:SSR;分子标记;葡萄;GO注释;结构域;转录因子
前言
葡萄品种资源丰富,按种群分类,可被分为四种,包括:欧亚种群,东亚种群,美洲种群,杂交种群。按食用特性可被分为五种:鲜食品种,酿酒品种,制罐品种,制汁品种,制干品种。按其成熟期可分为三种:早熟品种,中熟品种,晚熟品种。这些大类中又各包括许多品种。我国葡萄品种资源,尤其是野生葡萄资源极为丰富。但是,葡萄的品种,亚种的鉴定,葡萄的杂交育种等都受到了分子标记研究滞后的限制。因此。分子标记的开发和应用,将有助于了解和利用我国的葡萄亚种,品种资源;改良,培育拥有优良经济特性的新品种。SSR标记是一种基于PCR技术的分子标记,具有多态性高、多等位性、共显性、容易检测等优点。从现有的EST,转录组或基因组数据库中筛选SSR降低了分子标记开发成本,发掘效率更高。而研究蛋白编码基因包含的分子标记,可直接将找到的分子标记与其所在的功能基因联系起来,大大提高了其应用价值。目前对植物中EST数据来源的SSR研究较多,例如小麦(Triticum aestivumL) ,大麦(Hordeum vulgare L),草莓(Fragaria×ananassa) 、柑橘(Citrus sinensis osbeck ),香蕉(Musa nana Lour)等物种。
本研究基于全部葡萄蛋白编码基因进行SSR的鉴定,并对包含SSR标记的基因进行GO功能注释,KEGG功能注释,结构域分析以及密码子使用偏好性研究。开发葡萄的SSR分子标记对于葡萄的遗传多样性,系谱与进化的关系及品种鉴定和培育新品种有重要的意义。
1 材料与方法
1.1 葡萄蛋白编码基因SSR的预测
全部葡萄蛋白编码基因的数据来自v1版本葡萄基因组数据库中(http://genomes.cribi.unipd.it/DATA/V1/)。共29971个编码蛋白的基因用M ISA (MicroSatellite)软件进行SSR预测。预测标准:一,二核苷酸重复次数在6次或6次以上;三至六核苷酸重复的次数在5次或5次以上;同时也筛选中间被少数碱基(间隔小于100或等于100)打断的不完全重复的SSR。
1.2 密码子偏好性分析
利用软件CodonW1.4计算同义GC含量,GC3s(GC3s为密码子第三位GC含量) , 密码子相对使用频率(relativesynonymouscodonusage,RSCU)、最优密码子使用频率(frequencyof optimalcodons, Fop),密码子偏爱指数(codon bias index,CBI)等参数。为了研究密码子使用偏好性所受到的影响因素,本研究还分析了Fop,CBI与 GC含量, GC3s含量的相关性。
1.3 GO功能注释与分类
我们利用在线软件Blast2Go(https://www.blast2go.com/)对含有SSR的葡萄蛋白编码基因编码的蛋白进行分析,搜索其对应的GO功能注释。我们利用在线软件BGIWEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)对这些注释过的基因进行分类。
1.4 KEGG功能注释
我们利用在线KEGG数据库(http://www.kegg.jp/kegg/ko.html)中的线软件BlastKOALA(http://www.kegg.jp/blastkoala/)对含有SSR的葡萄蛋白编码基因进行blast分析,搜索其对应的KEGG功能注释。
1.5 功能结构域分析
我们利用Pfam数据库(http://pfam.xfam.org/)中的在线软件SEQUENCE SEARCH对含有SSR的葡萄蛋白编码基因编码的蛋白进行分析,搜索其含有的功能结构域。
1.6 基因表达分析
葡萄基因在冷胁迫诱导下的表达的芯片表达谱数据从GEO数据库(www.ncbi.nlm.nih.gov/geo/query/)进行收集。MAS5-calculated Signal intensity Value作为标准化的表达量用于差异基因分析和可视化热图绘制。热图用R包进行绘制。
2 结果
2.1 葡萄SSR的鉴定
从v 1 版本葡萄基因组数据库(http://genomes.cribi.unipd.it/DATA/V1/)中我们发现,29971个编码蛋白的基因,其mRNA总核苷酸数约为148m nt。4337个基因含有SSR,这些含有SSR基因的mRNA总核苷酸数约为40m nt,这4337个基因在葡萄19个染色体中都有分布。SSR有共5384个。SSR出现频率( SSR数目与蛋白编码基因数目的比值)为17.96%,平均每M有36个SSR,换句话说平均每30K有1个SSR。807个基因含有2个或2个以上的SSR,450个基因包含有复合型SSR。SSR长度在5-47 nt之间。葡萄的蛋白编码基因SSR除了单核苷酸外,以二核苷酸和三核苷酸SSR为主。两者共11403条。而且两者的数目相近。其余依次为六核苷酸SSR,四核苷酸SSR和五核苷酸SSR。
2.2 葡萄蛋白编码基因SSR的特点
葡萄蛋白编码基因SSR的重复基元(Repeat motif)共有96种。其中一核苷酸SSR有2种,二核苷酸SSR有4种,三、四、五、六核苷酸SSR分别有10、22、13和45种。出现最多的重复基元是A/T。在二核苷酸SSR的重复基元中出现最多的是AG /CT,其次是AT/AT。最少的是CG/CG。
三核苷酸重复葡萄蛋白编码基因SSR中,出现最多的重复基元为AAG/CTT,第二为AGG/CCT,第三为AAT/ATT。柑橘中AAG/CTT是最丰富的三核苷酸SSR的重复基元,与我们的研究结果类似 。
AAAT/ATTT,AAAAT/ATTTT和分别是四核苷酸和五核苷酸SSR中最多的重复基元,均富含A /T。即四、五核苷酸SSR都以富含A /T的重复基元为主要基序。ACCCTG/ACTGGG是六核苷酸SSR中最多的重复基元。
2.3 含SSR基因的密码子使用偏好性分析
密码子使用偏好性分析结果显示,很多基因是有密码子偏好性的。例如VIT_00s0125g00170基因中的氨基酸Phe,想比UUC(RSCU=0.42)更偏好的密码子是UUU(RSCU=1.58)。结合我们的SSR分析结果,A重复,T重复占大部分的SSR。因此,我们想知道,是否这些基因AT含量大于GC。分析结果显示,这些基因的平均AT含量大于GC含量,这些带SSR的编码基因对AT的使用似乎有所偏好。GC含量与密码子使用偏好性正相关说明密码子偏好性与受到突变压力影响。那么是否GC含量还对这些基因密码子使用偏好性有影响?为了研究这个问题,我们做了下CG,GC3s含量和密码子偏好性指数的相关性分析。我们发现,FOP,CBI和CG,CG3s含量是都显著正相关的(P<0.01)。因此,尽管AT含量高,但是密码子偏好性也是与突变相压力关的。
2.4 含SSR基因的GO功能注释
GO功能注释结果显示, 这4337基因中,有1607个基因个基因有GO功能注释。根据GO注释以及分类,这1607个基因可以被分为三大类:Biological Process(生物过程),Molecular Function(分子功能)以及Cellar Component(细胞组成)。其中,BiologicalProcess(生物过程)又可分为15个条目(term)。其中被注释最多的前五个(Top5)条目包括:Cellar Process(细胞过程),Metabolic Process(代谢过程),Response to Stimulus(对刺激的反应),Localization(定位)以及Establishment of Localization(定位的建立)。Molecular Function(分子功能)又可被分为8个条目(term)。其中被注释最多的前五个(Top5)条目包括:Binding(绑定),Catalytic(催化),Enzyme regulator(酶的调节),transcription regulator(转录调节)以及transporter(转运)。
Cellar Component(细胞组成)又可分为9个条目(term)。其中被注释最多的前五个(Top5)条目包括:Cell(细胞),Cell Part(细胞部分),Organelle(细胞器),Extracellular Region(细胞外区域)以及Macromolecularcomplex(大分子复合物)。全部的具体GO注释一共包括92种,部分基因的GO注释和次级代谢产物相关,例如VIT_19s0093g00550的GO功能注释是lipid metabolicp r o c e s s ( G O : 0 0 0 6 6 2 9 ) ,VIT_13s0067g01180的GO功能注释是carbohydrate metabolicprocess(GO:0005975)。部分基因和生物或非生物胁迫耐受相关,例如VIT_11s0037g00490的GO功能注释是r e s p o n s e t obiotic stimulus(GO:0009607),VIT_11 s 0 0 3 7 g 0 0 1 6 0 的GO功能注释是r e s p o n s e t o s t r e s s( G O : 0 0 0 6 9 5 0 ) 。部分基因与光合作用相关, 例如VIT_10s0003g00890的GO功能注释是photosynthesis(GO:0015979)。
部分基因与发育相关, 例如VIT_11 s 0 0 1 6 g 0 4 5 5 0 的GO功能注释是flow e r d e v e l o p m e n t(GO:0009908)。此外,很多基因的GO功能注释为DNA binding,nucleotide binding,其功能应该与转录调控相关。
2.5 含SSR基因的KEGG功能注释
KEGG功能注释结果显示,这4337基因中,352个基因有KEGG功能注释。根据KEGG注释结果,我们发现被这些基因的在各种KEGG通路(KEGG pathway)中的功能多达369种。有的基因在次级代谢产物的代谢或合成通路中发挥作用,例如淀粉合成酶VIT_10s0116g01730(KEGG注释为ec:2.4.1.21)在淀粉和糖代谢的通路中起到关键作用。有的基因在叶绿素合成或光合作用通路中发挥作用,例如chlorophyll synthase基因VIT_08s0105g00590(KEGG注释为ec:2.5.1.62)在Porphyrinand chlorophyll metabolism通路中起到关键作用。有的基因在氧化磷酸化通路中发挥作用,例如NADH dehydrogenase基因VIT_00s2376g00010(KEGG注释为ec:1.6.99.3)在Oxidativephosphorylation通路中起到关键作用。
2.6 含SSR基因的结构域分析以及含SSR的转录因子
结构域分析结果显示,这4337基因中,2692个基因编码的蛋白有结构域,而这些带有SSR的基因编码的蛋白共含有1196种结构域。其中64个基因编码的蛋白含有的结构域功能是未知的(Domainof unknown function;结构域PfamID: DUF1000)。根据结构域,我们可以推测出这些基因的功能以及明白这些基因属于什么基因家族。结果显示,这些包含SSR的基因很多与激素信号转导或激素合成代谢相关,例如AUX/IAA family基因(结构域Pfam ID:PF02309),Ethylene insensitive 3基因(结构域Pfam ID:PF04873)。很多与风味物质的合成与代谢相关,例如Cytochrome P450基因(结构域ID:PF00067),Fatty acid desaturase基因(结构域Pfam ID:PF00487),Fatty acid hydroxylase superfamily(结构域Pfam ID:PF04116)。 很多与植物器官或细胞发育相关,例如Homeobox domain基因(结构域Pfam ID:PF00046)和TCP-1/cpn60 chaperonin family(结构域Pfam ID:PF00118)。很多基因和逆境胁迫的耐受相关,例如Hsp70protein基因(结构域Pfam ID:PF00012)。
根据结构域Pfam ID,我们发现了包含SSR的基因中,有很多基因属于各个转录因子家族。我们发现了很多与非生物胁迫耐受相关的转录因子,包括:8个热休克转录因子家族成员(Hot shock transcriptfactor;Hsf)。很多与抗病相关的转录因子,包括:39个NBS/NBARCdomain转录因子家族成员和22个WRKY转录因子家族成员。
很多与植物器官发育和形态相关的转录因子,包括8个TCP familytranscription factor家族成员。很多和黄酮或花色苷合成相关的转录因子,包括36个Basic Helix-loop-helix(bHLH)转录因子家族成员和56个MYB转录因子家族成员 。
通过分析冷胁迫一小时与对照的表达的葡萄茎中的数据(GEO Accession为GSE31594)我们发现, 在8 个热休克转录因子家族成员中, 有三个基因( V IT_ 1 8 s 0 0 0 1 g 1 0 3 8 0 ,V I T _ 1 0 s 0 0 0 3 g 0 1 7 7 0 和VIT_04s0008g01110)表达量显著上调(P<0.01)。
3 讨论
在葡萄的29971个编码蛋白的基因中,4337个基因含有SSR,这些含有SSR基因的mRNA总核苷酸数约为40m nt,并且这4337个基因在葡萄19个染色体中都有分布。SSR有共5384个。因此,我们发现在葡萄的mRNA中,SSR出现频率为17.96%。在葡萄蛋白编码基因中,平均每30K mRNA中会出现1个SSR。在这些SSR中,出现最多的重复基元是A/T。在二核苷酸SSR的重复基元中出现最多的是AG/CT,其次是AT/AT。最少的是CG/CG。三核苷酸重复葡萄蛋白编码基因SSR中,出现最多的重复基元为AAG/CTT。且四、五核苷酸SSR都以富含A /T的重复基元为主要基序。这说明葡萄蛋白编码基因SSR中的AT含量高于GC含量。而这通过碱基构成分析我们发现,这些含有SSR葡萄蛋白编码基因的AT含量也大于GC含量。这说明可能这些基因的密码子更偏好使用AT。尽管如此,我们的相关性分析显示,
GC和GC3s的含量与这些基因的密码子使用偏好性呈正相关趋势,换句话说,GC和GC3s的含量依然能影响这些基因的密码子使用偏好性,这说明突变压力是影响这些基因的密码子使用偏好性的因素。
GO功能注释,KEGG功能注释以及结构域分析的结果显示,这些含有SSR葡萄蛋白编码基因的功能与细胞色素或次级代谢产物的合成与代谢,黄酮或花色苷合成,植物器官发育和形态,以及生物与非生物胁迫的耐受等密切相关。我们研究葡萄SSR的目的主要是用来开发分子标记,为葡萄品种的鉴定及研究,以及分子标记辅助育种服务。而这些含有SSR葡萄蛋白编码基因涉及的功能,可能与葡萄的表型,抗病能力,逆境耐受能力,风味物质含量密切相关。这些SSR在不同品种中的多态性很可能会造成不同品种表型,抗病能力,逆境耐受能力,风味物质含量的差异。因此,以这些基因包含的SSR及其功能的研究为线索,可能是开发葡萄SSR分子标记和研究葡萄复杂农艺性状位点(QTL)的捷径。