* 通讯作者(Corresponding author): 成浩, E-mail:chenghao@mail.tricaas.com
第一作者联系方式: E-mail:wangly@mail.tricaas.com
利用Perl语言, 对茶树花转录组序列进行大通量SSR位点的发掘, 发现含SSR的序列10 290条, 共12 582个SSR, 平均2.41 kb出现一个SSR。在茶树花的转录组中共发现340种碱基重复模式, 所占比例最高的是(AG/CT)n (44.99%)。在49 586条注释成功的茶树花Unigene中, 共发现10 490个SSR位点, 其中位于编码区的1917个, 其出现频率仅为0.102 SSR/1000 bp, 而非编码区为3.072 SSR/1000 bp。在基因编码区中出现频率最高的是三碱基微卫星(1140, 59.5%), 其次是六碱基微卫星(524, 27.3%)。茶树花转录组所含微卫星以重复长度小于20 bp的序列最多, 大于20 bp的仅为25.2%。茶树花转录组中, 含微卫星基因的平均表达水平显著低于不含微卫星基因, 其中含复杂微卫星基因的平均基因表达水平最低。
The microsatellites or simple sequence repeats (SSRs) in
微卫星(microsatellite)又称SSR (simple sequence repeat, 简单重复序列), 是真核生物基因组中的高度重复序列, 是由少数几个核苷酸组成的串联重复序列[ 1]。具有高多态性、多等位性、共显性、高可重复性、数量丰富和对基因组有很好覆盖性等特点[ 2], 已成为不同物种遗传研究中使用最广泛的分子标记。
在真核生物基因组中, 微卫星通常出现于内含子和基因间隔区, 但也出现在DNA编码区。由于微卫星序列容易发生变异, 编码区中微卫星突变会导致基因表达产物的改变, 在选择作用下, 编码区微卫星发生频率比其他基因组区域低。如杨树基因组中编码区微卫星的发生频率仅为非编码区的1/3, 以三碱基重复微卫星高度富集, 而非编码区中, 微卫星则以二碱基重复为主[ 3]。
有关茶树微卫星分布特征研究, 之前主要针对通过Sanger测序获得的NCBI公共数据库中茶树EST序列的微卫星分布情况, 不仅序列数量少, 而且主要来源于营养器官(主要是叶和根)[ 4, 5, 6]。2011年, 杨华等[ 7]利用高通量测序获得的127 094条Unigenes, 分析了茶树转录组中SSR位点情况。但是有关茶树基因编码区与非编码区中微卫星密度、微卫星分布情况的差异, 还未见报道。
本研究对通过Illumina转录组测序(RNA-Seq)获得的75 331条茶树花转录组序列, 进行微卫星位点的搜索, 并对找出的微卫星重复序列进行分析, 比较转录组序列中基因编码区和基因非编码区中微卫星的发生频率和组成差异, 了解茶树花转录组序列所含微卫星重复序列的特征和组成情况, 比较分析含有微卫星基因和不含有微卫星基因的总体表达水平, 并明确前者是否偏低。本研究可为茶树基因表达调控研究、微卫星标记开发、茶树基因组遗传进化提供研究基础。
10月下旬到11月中旬, 于下午采集福鼎大白茶大蕾期的花朵和雌蕊组织, 经液氮瞬时冷冻后于-86℃低温保存备用。
从福鼎大白茶的雌蕊、花瓣和雄蕊3部分提取的mRNA, 等量混合后, 进行Illumina转录组测序, 共得到26 874 116个clean reads, 其测序碱基数量为2.418 Gbp, 拼接获得的茶树Unigene 75331个。茶树花的转录组平均测序深度(Depth, 等于reads碱基数/Unigene序列长度)为23.45, 测序平均覆盖度(Coverage, 等于Unigene中有reads覆盖的碱基数/Unigene序列长度)为0.895。测序原始数据已经上传至美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI) 的Short Read Archive (http://www.ncbi.nlm.nih.gov/sra/), 登录号为SRA053025。长度大于200 bp组装序列已经上传至NCBI, 登录号为GAAC01000001-GAAC01052919。
利用Perl操作平台下的MISA软件(MISA-Micro SAtellite identification tool, MISA) (http:// pgrc.ipk- gatersleben.de/misa/)在Unigene中搜索SSR位点, 设置单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸最少重复次数分别为15、6、5、4、4和3。复合SSR两个位点间最大间隔碱基数(Maximal number of bases interrupting 2 SSRs in a compound microsatellite)∶100。
使用RPKM法(Reads Per kb per Million reads)[ 8], RPKM = (1 000 000 × C)/(N × L × 1000)。设RPKM为Unigene A的表达量, 则C为比对到Unigene A的reads数, N为比对到所有Unigene的总reads数, L为Unigene A的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响, 计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。
下载Windows下使用的32位版的本地比对软件blast-2.2.23-ia32-win32.exe (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/blast-x.x.x-ia32-win32.exe), 并按照操作说明安装。再通过本地化的Blast比对, 将茶树花的Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和COG做BlastX比对, 比对参数为E-value<0.00001, 取比对结果最好的蛋白作为Unigene的序列方向。如果不同库之间的比对结果有矛盾, 则按nr、Swiss-Prot、KEGG和COG的优先级确定Unigene的序列方向; 对于跟以上4个库皆比不上的Unigene, 用软件ESTScan[ 9]预测其编码区并确定序列的方向。
利用Perl操作平台下的MISA软件(Micro SAtellite Identification Tool) (http://pgrc.ipkgatersleben.de/misa/), 分析75 531条茶树(Camellia sinensis)花Unigene序列的SSRs特征, 序列拼接总长度为 30 326 kb, 含不同重复基元SSRs的序列有10 290条, 共12 582个SSRs, 包含SSR的一致序列出现频率为16.66%, SSR的出现频率为0.415 SSR/1 kb, 平均相隔2.41 kb出现一个SSR序列。SSR序列总长度约为278.55 kb (0.92%), 说明在茶树花转录组中SSR序列约占整个转录组序列的百分之一。
在12 582个SSR中共有340种重复基元(motif)。其中, 单、二、三、四、五和六碱基重复基元出现频率最多的分别是(A/T)n、(AG/CT)n、(AAG/CTT)n、(AAAG/CTTT)n、(AAAAT/ATTTT)n和(AAAAAC/ GTTTTT)n。它们在各自重复基元类型中的比例分别是92.24%、85.60%、27.35%、21.61%、20.55%和4.71%。在所有类型的重复基元中, 二核苷酸重复基元出现的频率最高, 为52.52%, 其次分别为三、六、一、四和五核苷酸重复基元(表1), 与之前的研究结果一致[ 4, 5, 6, 7]。
在发现的340种碱基重复模式中, 所占比例最高的是(AG/CT)n (44.99%), 其次是(AAG/CTT)n (6.19%)、(A/T)n (6.05%)和(ACC/GGT)n (4.12%)、(AT/TA)n (4.12%)等。不同类型重复基元的SSRs分布见图1。还发现少量的(CG/GC)的二核苷酸重复(0.08%)。
茶树花转录组中, 有49 586条茶树unigene序列功能注释成功, 序列总长度为21 628 894 bp, 其中蛋白编码区(CDS)序列长度为18 864 363 bp, 占87.22%。在49 586条注释成功的茶树Unigene中, 共发现10 490个SSR位点, 其中位于编码区的SSR位点数仅为1917个。在茶树花转录组的基因编码区, SSR的出现频率仅为0.102 SSR/1 kb, 而在非编码区, 为3.072 SSR/1 kb。这说明非编码区微卫星出现频率是编码区的数十倍。在基因编码区中出现频率最高的是三碱基重复类型的微卫星(1140, 59.5%), 其次是六碱基重复(524, 27.3%)。而SSR位点在茶树花转录组的非蛋白编码区中以二碱基重复为主(5068, 47.52%), 其次是三碱基重复(1414,13.26%)。
茶树花转录组中所发现的12 582个微卫星长度存在极显著变异, 从10~90个碱基不等, 平均长度为16.8个碱基(单碱基重复10次以上的结果)。如图2显示, 茶树微卫星以重复长度小于20 bp的短重复序列最多, 长度大于20 bp的长序列重复仅占微卫星总数的25.22%。进而, 利用SPSS软件进行Person相关性分析, 表明茶树微卫星的出现频率和微卫星的长度呈极显著负相关, 相关系数为-0.582。
图3表明, 茶树SSR数量随着重复次数增加呈明显下降趋势, 而且碱基重复次数越少, SSR数量下降的速率就越快。仅当二碱基重复从10次增加到11次时, 茶树SSR数量出现了增加的情况。单碱基重复次数达到25次、二碱基重复次数达到15、其他碱基重复次数达到10的时候, SSR的下降速率降低, 进入平台期。
茶树75 331条花转录组的序列中, 含微卫星的表达序列占序列总数的比例为13.66%。为了研究微卫星对基因表达水平的影响, 将10 290条含微卫星的基因的平均RPKM值与65 241条不含微卫星基因的平均表达水平比较。计算结果表明, 不含微卫星基因的平均RPKM值为31.49, 是含微卫星重复基因的平均RPKM值(24.66)的1.28倍(表3)。方差分析的结果也表明, 两组数据间存在极显著差异。
Weber 将微卫星分为3, 即单纯(pure) SSR、复合(compound) SSR, 和间隔(interrupted) SSR[ 10]。本研究发现含有复合SSR (compound repeats)和间隔SSR (Interrupted SSR) Unigene序列的平均RPKM值分别为18.20、17.49, 显著低于仅含有单纯型SSR (Pure SSR)的Uningene序列的平均RPKM值(>22.73)(表3)。
相关分析表明, SSR序列长度与基因表达水平RPKM呈显著负相关, 相关系数为-0.047。复合SSR和间隔SSR的平均长度分别为82.33 bp与44.85 bp, 分别是平均SSR长度(24.90 bp)的3.30倍和1.80倍。
本文对75 531条茶树( Camellia sinensis)花的Unigene序列进行微卫星分布特征分析, 共发现 12 582个微卫星, 分布在10 290条序列中, 包含SSR的序列出现频率为16.66%, SSR的出现频率为0.415 SSR/1 kb, 平均相隔2.41 kb出现一个SSR序列, 与金基强等[ 4] (2.16 kb)、王丽鸳等[ 5](2.10 kb)的研究结果基本一致, 但高于Sharma等[ 6](3.55 kb)和杨华等[ 7](3.68 kb)的报道。这或许与SSR搜索标准、序列数量等不一致有关。茶树微卫星出现频率与桉树[ 11, 12]、杏[ 13]、杨树[ 14]等相近, 约在15%~20%左右的表达序列中含有微卫星序列。茶树长序列微卫星出现的频率为4.20%左右, 高于小麦中2.38%的长序列微卫星出现频率[ 15], 这可能与物种差异有关。本研究发现, 茶树以小于20 bp的短微卫星重复序列最多, 大于 20 bp的长微卫星占微卫星总数的25.22%, 高于杨树中的16.63%[ 14]。根据这一分析, 我们判断茶树表达基因所含的微卫星可能受到强烈趋同选择的压力, 而使其富集在较短的序列范围内。在水稻、小麦、大麦等作物中, 微卫星重复以三碱基重复为主[ 16], 而茶树是以二碱基重复为主。
本研究发现, 茶树( C. sinensis) 花转录组微卫星序列主要分布在非编码区, 转录组编码区序列所含微卫星数量远低于基因非编码区, 编码区微卫星分布频率仅为非编码区的1/30, 说明基因上游调控区域富含微卫星; 基因编码区序列中的微卫星以三碱基重复为主, 而非编码区以二碱基重复为主。
许多研究都表明基因编码区中发现最多的微卫星类型是三碱基重复微卫星[ 17, 18], 这可能是三联体密码子选择作用的结果, 因为其他几种类型的重复单元(六碱基重复除外)重复次数的改变会导致阅读框的改变, 导致移码突变, 使基因表达产物产生完全不同的蛋白或变短。由于三碱基和六碱基重复单元重复次数的变化不改变基因读码框, 对基因表达产物的影响相对较小, 所以编码区序列对三碱基及六碱基微卫星重复有更好的容受性, 在选择作用下, 会导致三碱基及六碱基微卫星的富集。本研究结果显示, 在茶树基因编码区中, 三碱基和六碱基微卫星显著富集, 分别占微卫星总数的59.47%和27.33%, 三、六碱基重复占全部碱基重复的86.90%, 这与杨树中的研究结果一致[ 14]。这一现象也说明三、六碱基重复微卫星富集是基因编码区微卫星在基因组中得以保存的重要机制。
由重复单元的重复次数不同所造成的多态性常常表现为复等位性, 在不同的基因型间存在广泛的多态性。多数研究者认为这种多态性起因于复制过程中的滑动[ 19]。因此, 微卫星长度的变化反映微卫星位点获得(或失去)重复单元的活跃程度。基因序列中的微卫星增加了基因的不稳定性, 但同时为基因的变异提供了动力。由于微卫星序列越长, 其DNA序列稳定性越差, 尤其是在基因区, 微卫星序列越长或重复次数越多则该基因就越不稳定。越来越多的研究显示, 微卫星并不是通常人们所认为的中性遗传标记。拟南芥中的研究发现, 微卫星可以在基因转录及转录后水平影响基因的表达[ 20]。而Streelman等[ 21]在罗非鱼中研究表明, 微卫星长度与基因表达强度相关, 在无环境胁迫的条件下微卫星长度越长, 基因表达水平越低, 在有环境胁迫的条件下则反之。本文研究发现, 茶树花转录组中, 含微卫星序列基因的整体表达水平显著低于不含有微卫星序列基因的整体表达水平, 其中含复杂微卫星序列的基因整体表达水平最低, 且基因表达水平与微卫星的长度呈负相关。杨树中的研究也表明, 基因组中含有微卫星的基因可能总体表达水平偏低[ 16]。含微卫星的基因表达水平偏低会规避部分选择压力, 有利于相应基因在基因组中的保存。
在茶树( C. sinensis)花转录组中, 微卫星序列主要分布在非编码区。基因编码区序列中的微卫星以三碱基重复为主, 而非编码区以二碱基重复为主。茶树微卫星以重复长度小于20 bp的短微卫星重复序列最多, 大于20 bp的长微卫星占微卫星总数的25.22%。茶树SSR出现频率与SSR长度呈显著负相关, SSR频率随着重复次数增加呈明显下降趋势, 而且碱基重复次数越少, SSR数量的下降越快。茶树花转录组中, 含微卫星基因的平均表达水平显著低于不含微卫星基因的平均表达水平, 其中含复杂微卫星基因的平均基因表达水平最低。