玉米行粒数的全基因组关联分析
吴律, 代力强, 董青松, 施婷婷, 王丕武*
吉林农业大学, 吉林长春 130000
*通讯作者(Corresponding author): 王丕武, E-mail:peiwuw@163.com

第一作者联系方式: E-mail: 13224341842@163.com

摘要

行粒数是玉米重要的产量构成性状之一, 对其遗传机理进行深入研究具有重要的理论和现实意义。本研究以吉林省80份核心玉米自交系作为关联群体, 于2014年和2015年分别在吉林省长春和梅河口进行行粒数测定。同时利用第2代测序技术对关联群体进行全基因组重测序, 获得的SNP标记用于后续分析。结果显示, 不同环境下玉米行粒数表型性状变异范围在12.0~41.6之间, 遗传力为36.4%。关联分析结果共得到19个与玉米行粒数显著关联的SNP标记, 其中位于染色体框2.04和3.08的两个标记在2015年长春和梅河口均被检测到, 14个SNP标记位于前人已定位到的QTL置信区间内。在显著性SNP标记的连锁不平衡区域内挖掘出4个候选基因, 分别预测编码泛素化目标受体蛋白、金属依赖性磷酸水解酶、重金属转运/解毒蛋白及一个无特征功能的假定蛋白, 可能与玉米行粒数的发育形成密切相关。

关键词: 玉米; 行粒数; 单核苷酸多态性; 关联分析
Genome-wide Association Analysis of Kernel Number per Row in Maize
WU Lyu, DAI Li-Qiang, DONG Qing-Song, SHI Ting-Ting, WANG Pi-Wu*
Jilin Agricultural University, Changchun 130000, China
Abstract

Kernel number per row in maize is a significant trait in determining yield components and it has great significance to study its genetic mechanism. This report studied 80 Jilin maize inbred lines in field experiments at Jilin Changchun and Jilin Meihekou, and measured kernel number per row in 2014 and 2015. At the same time, whole-genome resequencing was performed for the association population using second generation sequencing technology, and the obtained single nucleotide polymorphisms (SNPs) markers were used for subsequent analysis. The results revealed that the range of phenotypic traits of kernel number per row was from 12.0 to 41.6 and the broad-sensed heritability was 70.5% in four environments. A total of 19 SNP markers significantly associated with kernel number per row were detected by a genome-wide association study. Of these, two markers located at bins 2.04 and 3.08 of chromosome frame were detected in the experiments at Changchun and Meihekou in 2015, respectively, and 14 SNP markers located within the quantitative trait loci had been previously mapped. Four candidate genes, such as the genes encoding the receptor for ubiquitination targets protein, metal dependent phosphohydrolase, heavy metal transport/detoxification protein and putative protein with no characteristic function, were identified from the range of linkage disequilibrium of the significant SNP makers and predicted that they were closely associated to the development of the kernel number per row.

Keyword: Maize; Kernel number per row; Single nucleotide polymorphism; Association analysis

玉米的单产主要由百粒重、行粒数、穗行数、单位面积有效穗数等构成, 其中行粒数作为玉米产量的重要组成因素, 不仅其遗传力较高[1], 而且与产量呈显著正相关[2]。因此, 探究玉米行粒数性状的遗传机制, 对于指导玉米高产育种, 提高玉米单产水平具有重要意义。

目前, 研究者们利用AFLP和SSR等分子标记定位了大量控制玉米行粒数的QTL。2005年Lan等[3]以191个F2代单株为试验材料, 利用91个SSR和20个AFLP标记共定位得到了9个控制玉米行粒数的QTL, 解释的表型变异率在5.4%~13.7%之间。2010年Li等[4]利用沈5003和掖178杂交所衍生的210个F2:3家系为作图群体, 利用207个SSR标记在不同的磷处理条件下定位得到11个控制玉米行粒数的QTL。其中位于第5染色体的QTL解释的表型贡献率高达14.35%。2016年Huo等[5]利用2个F2:3家系分别定位得到3个和6个QTL与玉米行粒数密切相关, 它们分布在第1、第2、第3、第7和第10染色体上。其中位于第1号染色体上的数量性状位点qEL1.10在多个穗部性状的定位中都被检测到, 说明该位点是一个控制玉米产量的多效QTL。2016年Chen等[6]利用D276/D72/ A188/Jiao51进行四元杂交所产生的后代群体为供试材料, 利用221个SSR标记共定位得到了6个控制玉米行粒数的QTL, 其中有4个QTL均位于第5染色体上。尽管在上述研究中均定位得到了控制玉米行粒数的染色体区域, 但受所选研究群体和遗传标记密度的制约, 多数定位结果的置信区间比较大, 有效性较低。近年来, 随着植物基因组测序技术的快速发展。第3代分子标记SNP和全基因组关联分析方法得到了越来越多的应用, 为解析玉米复杂性状的遗传构成开辟了新的途径。

本研究选取80份吉林省核心玉米自交系作为关联群体, 使用第2代测序技术对玉米行粒数开展全基因组关联分析。精细定位与行粒数紧密关联的分子标记, 深入挖掘玉米种质资源中控制行粒数的等位基因。为选育行粒数多, 产量高的玉米新品种提供理论支持。

1 材料与方法
1.1 试验材料与田间设计

80份吉林省玉米核心自交系由吉林农业大学生物技术中心提供, 于2014年和2015年分别在吉林长春及梅河口进行种植, 采用完全随机实验区组设计, 行长3.00 m, 行距0.65 m, 每小区种植3行, 3次重复, 密度80 000株 hm-2, 田间管理条件与常规生产相同。

1.2 性状测定与数据统计分析

在植株生理成熟后, 每小区内随机收取10个果穗, 每穗选取较整齐的一行测定行粒数。使用Microsoft Excel软件计算小区内平均数及对表型性状数据进行描述性统计分析, 使用DPS软件计算变异系数和相关系数并进行方差分析。按照Knapp等[7]提出的公式h2= σ g2/(σ g2+σ e2)计算遗传力, 公式中σ g2为遗传方差, σ e2为环境方差。

1.3 全基因组重测序

采用康为世纪新型植物基因组DNA提取试剂盒提取80份试验材料基因组, 经1%琼脂糖凝胶电泳及Nanodrop1000微量紫外可见分光光度计检测质量, 检测合格的DNA样品使用Illumina测序仪进行测序。质控后测序数据通过BWA软件[8]比对到玉米B73基因组序列RefGen_v3, 比对结果经SAMtools软件[9]去除重复, 同时为保证选取SNP的可信性, 采用贝叶斯模型进行群体SNP的检测与筛选, 以缺失率小于10%、最小等位基因频率大于0.05等阈值为标准, 共得到1 490 007个高质量的SNP标记用于后续分析。

1.4 群体结构分析与全基因组关联分析

运用MEGA6.0软件(http://www.megasoftware.net/)构建遗传距离矩阵, 群体主成分分析采用GCTA软件(http://cnsgenomics.com/software/gcta/)进行, 利用Admixture软件(http://www.genetics.ucla.edu/software/ admixture/)分析群体遗传结构, 使用PLINK软件[10]计算关联群体的连锁不平衡平均衰减距离(LD)。试验群体的亲缘关系分析借助GAPIT工具[11]进行, 使用FarmCPU模型[12]进行SNP标记与行粒数性状的关联分析, 当SNP标记的P< 0.000 001时, 判断其与研究性状具有显著关联。

1.5 候选基因的预测

根据与玉米行粒数显著关联的SNP标记在玉米基因组中的物理位置, 在玉米遗传学和基因组学数据库(http://www.maizegdb.org/gbrowse)上与玉米B73基因组序列RefGen_v3进行比对, 在LD范围内扫描玉米行粒数候选基因。候选基因的注释及功能预测借助玉米遗传学和基因组学数据库及美国国立生物技术信息中心数据库(https://blast.ncbi.nlm.nih.gov/Blast.cgi)进行。

2 结果与分析
2.1 玉米行粒数统计分析

2014年长春、2014年梅河口、2015年长春、2015年梅河口行粒数平均值分别为27.54、27.04、26.88和26.70, 变异范围为12.0~41.6, 变异幅度明显高于Huo等[5]利用Mo17 × TY6及W138 × TY6构建的2个F2:3家系群体, 这可能是因为自然群体的遗传背景更为丰富, 积累了更多的遗传变异。变异系数及方差分析的结果显示, 本研究选取的各自交系间行粒数性状差异显著。行粒数遗传力为36.4%, 说明玉米行粒数性状受环境影响较大[3]。相关分析显示, 各年份及环境间行粒数数据显著相关(表1)。

表1 行粒数数据统计分析 Table 1 Statistics on kernel number per row
2.2 全基因组重测序

测序得到的高质量数据量为3230.75 Gb, 平均每个样品40.38 Gb, 通过BWA软件比对到参考基因组, 群体样本平均比对率为98.82%, 对基因组的平均测序深度为17.62, 平均覆盖度为88.39%。与其他数据集合如Maize hapmap2比较, 其测序深度等略有不足, 但与参考基因组的相似度、测序深度和覆盖度均达到了重测序分析的要求。

2.3 连锁不平衡与群体遗传结构分析

该群体的LD分析结果显示, r2=0.1时关联群体连锁不平衡平均衰减距离为5.2 k。以群体的遗传距离矩阵为基础, 参考主成分分析结果及所选材料的血缘信息, 可将选取的80份玉米自交系材料分为3个亚群, 其中亚群1主要由Reid种质及其改良系构成; 亚群2主要由国内种质构成, 同时还包含少量改良Reid种质和含有热带血缘的种质; 亚群3由Lancaster种质和欧洲种质构成。据此采用Admixture软件以本次研究假定的祖先群体个数为3, 即K=3进行群体遗传结构分析, 分析结果如图1。

图1 群体结构图不同颜色片段的长度表示该个体基因组中某个祖先所占的比例。Fig. 1 Group structure plot The length of the different color segments represents the proportion of an ancestor in the individual genome.

2.4 玉米行粒数全基因组关联分析

P< 0.000 001 (-lg P > 6)为标准, 各环境下共检测到19个与玉米行粒数显著关联的SNP标记, 分布于除第5染色体外的各条染色体上。在染色体框1.04中检测到了3个与行粒数显著关联的SNP标记, 染色体框7.01中检测到了2个, 与Tuberosa发现的数量性状遗传位点成簇现象相吻合[13]。位于染色体框3.08的sKNR14标记和位于染色体框2.04的sKNR15标记在2015年长春和梅河口均被检测到, 其中sKNR14在两环境中的表型贡献率分别达到了38.49%和24.95% (表2)。标记sKNR17物理位置位于候选基因GRMZM2G101036内, 为同义突变SNP, 不影响该基因编码蛋白的一级结构(图2与表2)。关联分析中得到的QQ统计图见图3。

表2 与玉米行粒数显著相关的SNP标记(P< 0.000001) Table 2 SNPs identified to be associated with kernel number per row (P < 0.000001)
2.5 候选基因分析

对与玉米行粒数显著关联SNP标记的基因组区域进行扫描, 得到了4个候选基因(表2)。GRMZM2G101036基因编码的蛋白含有F-box结构域, 功能预测为泛素化目标受体(Receptor for Ubiquitination Targets)。GRMZM5G 835562基因编码一个无特征功能的假定蛋白。GRMZM2G 088397基因编码的蛋白含HD_3结构域, 预测其功能为金属依赖性磷酸水解酶(metal dependent phosphohydrolases)。GRMZM2G313009基因编码的蛋白含一个HMA结构域, 功能预测为重金属转运/解毒蛋白(heavy metal transport/detoxification protein)。

图2 全基因组关联分析曼哈顿图Fig. 2 Manhattan plot of genome-wide association study

图3 全基因组关联分析QQ图Fig. 3 Quantitle-quantitle plot of Genome-wide association study

3 讨论
3.1 行粒数全基因组关联分析定位结果分析与比较

玉米是异花授粉作物, 在育种过程中容易受到环境及人为选择的影响, 其LD的衰减较快[14], 适合于应用关

联分析方法进行分析。本实验中共得到19个与玉米行粒数显著关联的SNP标记, 将它们与已有研究结果相比较, 发现14个SNP标记位于已定位到的QTL置信区间内, 如染色体框1.05中定位到的标记sKNR1位于Lu等[15]定位的区间mzetc34-umc1053中; 染色体框9.03中定位到的标记sKNR2位于刘宗华等[16]定位的区间phi065-umc1271中; 标记sKNR3位于染色体框9.06, 与代国丽等[17]定位的SSR标记bnlg1191相近, 物理位置相差4 Mb; 位于染色体框4.05的sKNR5与杨俊品等[18]定位的SSR标记csu74位置接近; 位于染色体框8.03的2个标记sKNR10和sKNR11与杨国虎等[19]通过2个近等基因系群体定位的区间bnlg2082-bnlg2046相吻合; 在2015年长春和梅河口均检测到的标记sKNR14和sKNR15与Huo等[5]定位的区间umc1767-umc2152和umc2032- umc1065一致, 分别位于染色体框3.08和2.04, 说明本试验结果具有很高可信性。但本实验定位到的显著性SNP标记中, sKNR7、sKNR8、sKNR12、sKNR16和sKNR18未找到与之相符的研究结果, 这可能是因为玉米行粒数以多基因遗传为主, 由多个微效基因加性效应决定[1, 20], 而传统定位方法受遗传背景和分析方法的限制, 难以对微效多基因进行定位[18]

3.2 候选基因分析

根据显著关联的SNP标记的物理位置, 在连锁不平衡范围内进行扫描, 得到了4个候选基因。其中GRMZM2G101036基因编码的蛋白含有F-box结构域, F-box结构域通常由40~50个氨基酸组成, 是与SCF (Skp1-Cullin-F-box protein)复合体中的Skp1或Skp1类似蛋白结合的区域, 起到调节不同情况下蛋白质间交互作用的功能, 通常通过泛素-蛋白酶体途径(ubiquitin-Proteas pathway)参与细胞的周期调控、转录调控、凋亡或信号转导[21]

GRMZM2G088397基因编码的蛋白中包含一个HD_3结构域, HD_3结构域是HDc家族的成员, 该家族由Aravind等[22]于1998年首次提出, 并认为具有HDc家族结构域的蛋白是有金属依赖性的磷酸水解酶(metal dependent phosphohydrolases)。Yakunin等[23]的研究表明, 在大肠杆菌核苷酸基转移酶中, HD结构域调控的磷酸水解活性与修复tRNA的3° -CCA末端密切相关。目前还未有研究表明含有HD_3结构域的蛋白在植物体中的作用。

候选基因GRMZM2G313009的核酸序列与拟南芥基因组中一个重金属转运/解毒蛋白家族(heavy metal transport/detoxification superfamily protein)基因直接同源, 且与水稻基因组中一个富脯氨酸表达蛋白(proline-rich protein putative expressed)基因直接同源。其编码的蛋白中含有HMA (heavy metal ATPase)结构域, 已有大量研究表明HMA蛋白是一个能够水解ATP并利用释放的能量驱动重金属离子跨膜转运的蛋白种类, 在Zn、Cd、Pb、Co等重金属离子的运输过程中起重要作用, 其工作机制与钠泵和钾泵类似。植物、细菌和人的HMA氨基酸序列具有高度的同源性[24, 25]。目前已知的HMA家族蛋白均与排出转运及细胞内区室化有关[26]

候选基因GRMZM5G835562未发现直接同源序列, 也未发现其编码蛋白中有典型结构域, 其功能有待进一步研究。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 张怀胜, 陈士林, 王铁固. 玉米行粒数主基因+多基因混合遗传模型分析. 河南农业科学, 2013, 42(2): 30-33
Zhang H S, Chen S L, Wang T G. Genetic analysis on kernel number per row by mixed inheritance model of major gene and polygene in maize. J Henan Agric Sci, 2013, 42(2): 30-33 (in Chinese with English abstract) [本文引用:2]
[2] 孙峰成, 冯勇, 于卓, 赵瑞霞, 张来厚, 苏二虎, 刘志雄, 石海波. 12个玉米群体的主要农艺性状与产量品质的灰色关联度分析. 华北农学报, 2012, 27(1): 102-105
Sun F C, Feng Y, Yu Z, Zhao Y X, Zhang L H, Su E H, Liu Z X, Shi H B. Grey relativity analysis on main agronomic characters of 12 maize populations with their yields and traits. Acta Agric Boreali-Sin, 2012, 27(1): 102-105 (in Chinese with English abstract) [本文引用:1]
[3] 兰进好, 李新海, 高树仁, 张宝石, 张世煌. 不同生态环境下玉米产量性状QTL分析. 作物学报, 2005, 31: 1253-1259
Lan J H, Li X H, Gao S R, Zhang B S, Zhang S H. QTL analysis of yield components in maize under different environments. Acta Agron Sin, 2005, 31: 1253-1259 (in Chinese with English abstract) [本文引用:2]
[4] Li M, Guo X H, Zhang M, Wang X P, Zhang G D, Tian Y C, Wang Z L. Mapping QTLs for grain yield and yield components under high and low phosphorus treatments in maize ( Zea mays L. ). Plant Sci, 2010, 178: 454-462 [本文引用:1]
[5] Huo D, Ning Q, Shen X, Liu L, Zhang Z. QTL mapping of kernel number-related traits and validation of one major QTL for ear length in maize. PLoS One, 2016, 11: e0155506 [本文引用:3]
[6] Chen J, Zhang L, Liu S, Li Z, Huang R, Li Y, Cheng H, Li X, Zhou B, Wu S, Chen W, Wu J, Ding J. The genetic basis of natural variation in kernel size and related traits using a four-way cross population in maize. PLoS One, 2016, 11: e0153428 [本文引用:1]
[7] Knapp S J, Stroup W W, Ross W M. Exact confidence intervals for heritability on a progeny mean basis. Crop Sci, 1985, 25: 192-194 [本文引用:1]
[8] Li H, Durbin R. Fast and accurate short read alignment with burrows-wheeler transform. Bioinformatics, 2009, 25: 1754-1760 [本文引用:1]
[9] Li H, Hand saker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. The sequence alignment/map format and SAMtools. Bioinformatics, 2009, 25: 2078-2079 [本文引用:1]
[10] Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira M A, Bender D, Maller J, Sklar P, de Bakker P I, Daly M J, Sham P C. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet, 2007, 81: 559-575 [本文引用:1]
[11] Lipka A E, Tian F, Wang Q, Peiffer J, Li M, Bradbury P J, Gore M A, Buckler E S, Zhang Z. GAPIT: genome association and prediction integrated tool. Bioinformatics, 2012, 28: 2397-2399 [本文引用:1]
[12] Liu X, Huang M, Fan B, Buckler E S, Zhang Z. Iterative usage of fixed and rand om effect models for powerful and efficient genome-wide association studies. PLoS Genet, 2016, 12: e1005767 [本文引用:1]
[13] Tuberosa R, Salvi S, Sanguineti M C, Land i P, Maccaferri M, Conti S. Mapping QTL regulating morpho-physiological traits and yield: case studies, shortcomings and perspectives in drought-stressed maize. Ann Bot, 2002, 89: 941-963 [本文引用:1]
[14] Tenaillon M I, Sawkins M C, Long A D, Gaut R L, Doebley J F, Gaut B S. Patterns of DNA sequence polymorphism along chromosome 1 of maize ( Zea mays ssp. mays L. ). Proc Natl Acad Sci USA, 2001, 98: 9161-9166 [本文引用:1]
[15] Lu G H, Tang J H, Yan J B, Ma X Q, Li J S, Chen S J, Ma J C, Liu Z X, Zhu L, Zhang Y R, Dai J R. Quantitative trait loci mapping of maize yield and its components under different water treatments at flowering time. J Integr Plant Biol, 2006, 48: 1233-1243 [本文引用:1]
[16] 刘宗华, 汤继华, 卫晓轶, 王春丽, 田国伟, 胡彦民, 陈伟程. 氮胁迫和正常条件下玉米穗部性状的QTL分析. 中国农业科学, 2007, 40: 2409-2417
Liu Z H, Tang J H, Wei X Y, Wang C L, Tian G W, Hu Y M, Chen W C. QTL mapping of ear traits under low and high nitrogen conditions in maize. Sci Agric Sin, 2007, 40: 2409-2417 (in Chinese with English abstract) [本文引用:1]
[17] 代国丽, 蔡一林, 徐德林, 吕学高, 王国强, 王久光, 孙海艳. 玉米穗部性状的QTL定位. 西南师范大学学报(自然科学版), 2009, 34(5): 133-138
Dai G L, Cai Y L, Xu D L, Lyu X G, Wang G Q, Wang J G, Sun H Y. QTL mapping for ear traits in maize( Zea mays L. ). J Southwest China Norm Univ, 34(5): 133-138 (in Chinese with English abstract) [本文引用:1]
[18] 杨俊品, 荣廷昭, 向道权, 唐海涛, 黄烈健, 戴景瑞. 玉米数量性状基因定位. 作物学报, 2005, 31: 188-196
Yang J P, Rong Y S, Xiang D Q, Tang H T, Huang L J, Dai J R. QTL mapping of quantitative traits in maize. Acta Agron Sin, 2005, 31: 188-196 (in Chinese with English abstract) [本文引用:2]
[19] 杨国虎. 玉米两个相关RILs群体遗传图谱构建及主要性状QTL分析. 河南农业大学博士学位论文, 河南郑州, 2011
Yang G H. Construction of Genetic Map and QTL Analysis for Main Traits Using Two Connected RIL Populations in Maize. PhD Dissertation of Henan Agricultural University, Zhengzhou, China, 2011 (in Chinese with English abstract) [本文引用:1]
[20] Веденеев Г И (王富德译). 玉米数量性状的遗传控制: III. 穗行数和行粒数. 国外农学——杂粮作物, 1988, (3): 10-15
Веденеев Г И (Wang F D Trans). Genetic control of maize quantitative traits: III. Row number per ear and kernel number per row. Foreign Agron: Minor Cereals, 1988, (3): 10-15 (in Chinese) [本文引用:1]
[21] 王秀燕, 孙莉萍, 张建锋, 李辉, 吕文清, 张其清. F-box蛋白家族及其功能. 生命科学, 2008, 20: 807-811
Wang X Y, Sun L P, Zhang J F, Li H, Lyu W Q, Zhang Q Q. F-box proteins and their functions. Chin Bull Life Sci, 2008, 20: 807-811 (in Chinese with English abstract) [本文引用:1]
[22] Aravind L, Koonin E V. The HD domain defines a new superfamily of metal-dependent phosphohydrolases. Trends Biochem Sci, 1998, 23: 469-472 [本文引用:1]
[23] Yakunin A F, Proudfoot M, Kuznetsova E, Savchenko A, Brown G, Arrowsmith C H, Edwards A M. The HD domain of the Escherichia coli tRNA nucleotidyltransferase has 2’, 3’-cyclic phosphodiesterase, 2’-nucleotidase, and phosphatase activities. J Biol Chem, 2004, 279: 36819-36827 [本文引用:1]
[24] Palmgren M G, Axelsen K B. Evolution of P-type ATPases. Biochim Biophys Acta, 1998, 1365: 37-45 [本文引用:1]
[25] 金枫, 王翠, 林海建, 沈亚欧, 张志明, 赵茂俊, 潘光堂. 植物重金属转运蛋白研究进展. 应用生态学报, 2010, 21: 1875-1882
Jin F, Wang C, Lin H J, Shen Y O, Zhang Z M, Zhao M J, Pan G T. Heavy metal-transportproteins in plants: a review. Chin J Appl Ecol, 2010, 21: 1875-1882 (in Chinese with English abstract) [本文引用:1]
[26] Seigneurin-Berny D, Gravot A, Auroy P, Mazard C, Kraut A, Finazzi G, Grunwald D, Rappaport F, Vavasseur A, Joyard J, Richaud P, Rolland N. HMA1, a new Cu-ATPase of the chloroplast envelope, is essential for growth under adverse light conditions. J Biol Chem, 2006, 281: 2882-2892 [本文引用:1]