【豆科基因组】绿豆Mungbean, Vigna radiata苏绿基因组预印

一、来源

High-quality genome assembly, annotation and evolutionary analysis of the mungbean (Vigna radiata) genome. November 2020.
DOI:10.22541/au.160587196.63922177/v1

单位:江苏农科院

主要结果:

  • 通过Nanopore+Illumina+HiC组装苏绿基因组,组装大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
  • 52.8%的重复序列,LTRs占33.9%。
  • 预测了33924个基因,95.7%注释率。
  • 绿豆与其关系最近的小豆分化时间约11.66万年前,绿豆特有基因家族277个,其中18个正选择基因。

绿豆研究进展:

  • 中绿VC1973A基因组草图
  • 叶发育
  • 白粉病抗性powdery mildew resistance
  • 豆象抗性bruchid resistance
  • 耐盐 salinity tolerance
  • 基因组多样性和GWAS(GBS),种皮光泽

二、结果

测序组装

苏绿一号,测序约122.9Gb数据,深度259.5X,其中Oxford Nanopore (142.4X)。
组装先使用canu纠正reads,再用wtdbg2组装。原始组装结果用Racon对nanopore reads 进行三轮纠错,使用Pilon利用二代测序数据进行3轮纠错。组装大小473.67 Mb,359 contigs, N50 =11.32 Mb。
HiC-Pro利用唯一比对reads鉴定有效和无效互作,使用LACHESIS进行聚类、排序和定向,最后挂载11条染色体。基因组大小470.45Mb(挂载率99.32%,组装率87.8%)。
image.png

image.png

a-e 代表 the distribution of FPKM, gene density, density of Copia
retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
densities calculated in 200-kb windows.
f 代表 syntenic blocks.

组装评价

三方面评估:

  • 组装连续性和覆盖度。二代测序reads比对99.07%;CEGMA评估连续性449个(98.03%)核心保守基因。
  • 完整性。BUSCO评估,92.43%。
  • HiC聚类热图。

编码基因预测

三个来源:

  • ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
  • homology-based:GeMoMa (v1.3.1)
  • unigene-based prediction :Hisat (v2.0.4) and
    Stringtie (v1.2.3), and PASA (v2.0.2)组装,TransDecoder (v2.0) and GeneMarkST(v5.1)预测。

EVM整合,PASA优化。共预测33,924个蛋白编码基因,20,446个三种证据都有。

基因功能注释

BLAST (v2.2.31) against NR, KOG,
GO, KEGG and TrEMBL database, performed KEGG pathway。
共32,470个基因注释(95.71%)。
InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)进行motif注释,共注释2,765 motifs and 35,154 domains。

非编码RNA注释

microRNA, rRNA使用Rfam数据库;
tRNA使用tRNAscan-SE。
最后鉴定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。

假基因预测

假基因序列与功能基因类似,但由于突变丢失了功能。
使用BLAT将预测蛋白序列寻找可能的同源基因序列,再用GeneWise寻找不成熟的终止密码和基因序列上的移码突变,从而获得假基因,共4320个,平均长度2237bp。

重复序列注释

使用Repbase库和从头预测的重复库(采用LTR FINDER和RepeatModeler),数据库鉴定采用PASTEClassi er,合并以上两个重复库作为最终库。RepeatMasker注释。共52.83%,重复元件长度46.4 Kb - 215.1 Mb。大部分是LTR(33.92%),包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。

使用MISA检测简单串联重复(SSRs),共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)。全长3,252,656 bp(~0.69%)

进化分析和分歧时间估计

从绿豆和10个近缘物种(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL软件鉴定单拷贝直系同源基因,基于该数据集采用MUSCLE+MEGA+PHYML构树。

使用Mcmctree通过最大似然树估计分歧时间,并用化石证据矫正。
image.png

image.png

全基因组复制

为研究绿豆进化,将之与其他4种双子叶植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比较,基于两物种间或物种内的成对同源基因计算4DTv (4-fold degenerate synonymous sites of the third codons)。

Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰。表明绿豆和拟南芥分化的时间比绿豆和普通豆(菜豆)分化更早。
image.png

LTR插入时间估计

采用突变率来估计LTR插入时间。苏绿中的LTR插入事件不是很活跃。
image.png

正选择基因

通过评估单拷贝基因的Ka/Ks来检测正选择基因。共检测到18个基因。GO富集在membrane-enclosed lumen 和cell junction。

posted @ 2021-06-16 18:04  生物信息与育种  阅读(788)  评论(0编辑  收藏  举报