【豆科基因组】小豆(红豆)adzuki bean, Vigna angularis基因组2015

一、来源

2015年发表的两篇红小豆文章。

研究一:Draft genome sequence of adzuki bean, Vigna angularis

Kang, Y., Satyawan, D., Shim, S. et al. Draft genome sequence of adzuki bean, Vigna angularis. Sci Rep 5, 8069 (2015). https://doi.org/10.1038/srep08069

单位:Seoul National University
和2014年绿豆那篇同一个团队,分析套路类似。

红豆 ( Vigna angularis var. angularis ) 是一种二倍体豆科作物 (2n = 2x = 22),估计基因组大小为 538 Mb 1。它是角豆亚属中的亚洲豇豆之一,属于豆科2的蝶形亚科。红豆因其甜味以及营养丰富的蛋白质和淀粉含量而在中国、日本和韩国等东亚国家广泛种植,作为传统甜点美食的原料。中国、日本、朝鲜半岛和台湾的红豆年种植面积估计分别为 670,000、120,000、30,000 和 20,000 公顷3。小豆野生种,如V. angularis变种 nipponensisV. nakashimaeV. nepalensis广泛分布于东亚和喜马拉雅山国家2。然而,考古证据表明东北亚有多个驯化起源。小豆V. angularis var. angularis是绿豆V. radiata 的近亲,适应亚热带和温带气候区。

研究二:Genome sequencing of adzuki bean (Vigna angularis) provides insight into high starch and low fat accumulation and domestication

Kai Yang,Zhixi Tian,Chunhai Chen, et al. Genome Sequencing of Adzuki Bean (Vigna angularis) Provides Insight into High Starch and Low Fat Accumulation and Domestication . DOI:10.1073/pnas.1420949112

单位:北京农学院教授万平,中国科学院遗传与发育生物学研究所研究员凌宏清和田志喜,深圳华大基因研究院

红豆 ( Vigna angularis var. angularis ) 约 12,000 年前在中国驯化 ( 1 ) 并在世界 30 多个国家种植,特别是在东亚 ( 2 , 3 )。红豆种子是蛋白质、淀粉、矿物质元素和维生素的重要来源 ( 4 , 5 )。由于其热量和脂肪含量低,蛋白质易消化,生物活性化合物丰富,红豆被称为“减肥豆”(6 , 7)。鉴于这些特性,红豆被广泛用于各种食品(例如,糕点、甜点、蛋糕、粥、红米、果冻、红豆牛奶、冰淇淋中的糊状物)至少为 10 亿人提供 ( 8 )。此外,红豆是一种传统药物,在中国已被用作利尿剂和解毒剂,并缓解水肿和脚气病的症状 ( 9 , 10 )。

小豆适应性广,对贫瘠土壤的耐受性强,是一种高价值轮作作物,有助于通过固氮改善土壤条件( 11 , 12 )。此外,红豆可以用作模型物种,特别是对于非油籽豆类,由于其生长期短且基因组小的特点。

二、研究一(小豆基因组草图)

基因组组装

流式分析基因组大小估计为 612 Mb,高于先前估计的 538 Mb 。22 k-mer 估计基因组大小为 591 Mb。

测序材料是 Gyeongwon,在韩国广泛种植的品种。

多种大小片段文库,ALLPATHS-LG + Newbler组装,3883个scaffold,N50=703kb,总长443Mb(75%)。通过从 Ks 频率图的峰值中寻找与菜豆Phaseolus vulgaris和绿豆V. radiata var. radiata的共线性区块,并提取保守基因组区块,用作superscaffold桥梁。基于共线性的scaffold策略将 N50提高到1.5Mb,最长从4.4Mb提高到11.1Mb。

通过GBS将133个F4群体(Gyeongwon和野生种IT178530杂交后代)来自构建遗传图谱,过滤后的 814 个 SNP用于构建11个连锁群,共158个scaffold锚定到11条假染色体上,大小为210Mb,N50=25Mb。

基因与重复序列预测

mRNA的花、荚、叶、根组织,Trinity从头组装,Maker流程。
CEGMA评估248个核心基因>86%,与大豆、绿豆、菜豆(P. vulgaris)的基因长度、CDS和内含子等元件比较。小豆的短基因(250bp)比例更高。26857个基因中15,976 个位于假染色体上。

小豆与拟南芥、水稻、大豆、蒺藜苜蓿(M. truncatula)的蛋白聚类分析:共有的 6,643 个基因簇,小豆特有1,163 个基因簇。
image.png

小豆与大豆、绿豆、菜豆的共线性分析。
image.png

在红豆基因组中总共鉴定了 2,669 个编码转录因子 (TF) 的基因。将相对 TF 丰度与其他植物基因组的丰度进行了比较,发现这些植物基因组中 TF 基因家族的总体比例相似。

基于同源性和结构的分析显示约 43.1% 的已测序小豆基因组为重复序列。

小豆驯化痕迹

驯化特征:种子破碎、种子休眠最小化以及种子大小和数量增加。
新增测序材料,小豆野生近缘种V. nepalensis(AusTRCF85148)和V. angularis var. nipponensis(IT241912)。包括之前研究材料IT178530的reads。比对到小豆参考基因组上进行变异检测。

通过栽培和野生红豆的直系同源比较,我们计算了每个非同义位点的非同义替换数(Ka)与每个同义位点的同义替换数(Ks)的比值,以估计每个基因的选择压力。V. angularis var. nipponensis在 Ka/Ks 计算中显示出最少数量的多态性基因 (1,823)。我们在 Ka/Ks 值为 0.2 时观察到一个一致的峰值,表明栽培和三种野生红豆之间存在纯化选择(Ka/Ks < 1)。

三个材料的Ka/Ks 分布高度相似,一致显示三个峰(0.2、0.5 和 0.7 ~ 0.8)。在这两个比较中,分别在三个峰内共同发现了总共 307、152 和 75 个基因表明栽培和野生红豆之间对这些位点的选择压力不同。

尽管 Ka/Ks 小于 1 已被解释为纯化选择的特征27,但每个峰中的基因子集可以作为解释野生和栽培小豆之间差异的候选基因。例如,在第二(0.40.6)和第三个峰(0.60.9)的病害相关基因的同源物如Vang03g15160、Vang02g14420、Vang0291s00070、Vang0229s00140、Vang02g144等野生豆类都可能具有不同的抗病性。
image.png

标记开发及育种应用

使用 MISA 软件确定了简单序列重复 (SSR) 标记。总共检测到 143,113 个 SSR,三重复单元 SSR(基因分型的首选类型)的数量为 1,941。使用翻译基因组学方法29预测了这些 SSR 标记的相关 QTL 。翻译了大豆的 2,010 个 QTL 相关 SSR 标记的基因组位置通过 569 个直系同源块将小豆的基因组位置对应到到大豆相应的基因组位置,并将农业上重要的 QTL,如开花时间、成熟度、种子大小、产量和抗病性绘制到circos上。
抗病性 QTL 可能围绕 87 个编码核苷酸结合位点 (NBS) 和富含亮氨酸重复序列 (LRR) 域的基因,它们通常与抗病性相关。这些翻译的 QTL 的侧翼标记可用于育种计划。

红豆基因组进化

使用菜豆P. vulgaris、绿豆V. radiata、野生小豆V. nakashimae、野生小豆V. nepalensis、小豆V. angularis var. 的60 个直系同源物构建进化树。

小豆形成了一个独特的进化枝(包括野生小豆)。栽培和野生小豆之间的最小物种形成时间为 0.05 MYA,这早于小豆种植的考古证据(约 5,000 年之前)。

Ks密度图显示这些物种具相同的单个古全基因组复制(~53.3 MYA),在红豆基因组中鉴定了 1,273 个串联复制基因,GO富集在防御反应,氧化还原和磷酸化,这与在其他植物基因组发现是一致的。
image.png

三、研究二(小豆高淀粉低脂肪积累与驯化)

基因组测序和组装

材料:中国品种“京农6号”,49份小豆重测序(11个野生,11个半野生,17个地方种,10个栽培种)。

90.88 Gb 高质量序列(168 × 小豆基因组覆盖率),Kmer评估542Mb, SOAPdenovo 组装 ,contig N50=38 kb ,scaffold N50=1.29 Mb,大小466.7 Mb(86.11%)。GC含量为34.8%,与其他已测序的豆科植物基因组相似。

使用来自栽培品种 Ass001 杂交的150 个F2个体,通过RAD-Seq构建了高密度单核苷酸多态性 (SNP) 遗传图谱。遗传图谱由覆盖 11 个连锁群的 1,571 个 SNP 组成,跨越 1,031.17 cM,每个scaffold平均有 4.33 个映射的 SNP,平均标记距离为 0.67 cM。总共长度有372.9 Mb 的scaffold通过使用这些SNP 分配给 11 个假染色体(79.9%)。

image.png

A:重复基因;B:染色体;C:连续200kb窗口的GC含量;D:重复序列密度;E:基因密度;F:表达基因密度;G:SSR密度;H:SNP密度。

重复序列分析和基因预测

约44.51% (207.7 Mb) 的红豆基因组由重复 DNA 组成。高于苜蓿和莲花,低于大豆、鹰嘴豆和木豆,但与普通豆(菜豆)相似。与其他豆科植物基因组一致,大多数转座子是逆转录转座子(占基因组的 34.57%),而 DNA 转座子仅占基因组的 5.75%。使用MISA鉴定 16,230 个简单序列重复 (SSR),设计了 9,038 个 SSR 引物对,通过分析 1,572 对引物发现其中 24.7% 表现出多态性,可作为遗传标记。

RNAseq数据包含 三个不同发育阶段(开始、发育和成熟种子)的根、茎、叶和种子,转录组组装由59,909个unitranscripts组成,其中97.4%被基因组组装覆盖,92.6%被捕获在一个超过90%的unitranscript长度的支架中,进一步证实了基因组组装的高质量。

结合从头基因预测、基于同源性的搜索和 RNA-Seq 来预测小豆基因组中的基因模型,共预测了 34,183 个蛋白质编码基因。

基因家族与其他已测序豆科植物基因组的比较

与其他六个已测序的豆科植物基因组相比,小豆基因组中预测基因的数量低于大豆、木豆和紫花苜蓿,但高于普通豆、鹰嘴豆和莲花。根据基因序列占全基因组的比例(基因总长度/基因组大小),红豆的比例(22.98%)高于除苜蓿外的其他豆科植物。

共76,211 个基因家族进行了聚类。发现5个豆科植物基因组共有12,582个基因家族(直系同源),而包含5,446个基因的827个基因家族是小豆特有的。功能主要富集在锌离子结合、蛋白水解、半胱氨酸型肽酶活性、双组分反应调节活性和有丝分裂等类别上。

红豆中的单拷贝基因直系同源物明显多于大豆,与木豆、鹰嘴豆和普通豆中的相似,而多拷贝直系同源物与此相反。红豆和大豆之间的这种差异很可能与大豆中额外的全基因组重复 (WGD) 相关。
image.png

通过与已知转录因子的序列比较和搜索已知的 DNA 结合域,总共鉴定了 属于 63 个家族的3,508 个红豆转录因子基因。这些基因占红豆总预测基因的10.26%,远低于普通豆、大豆和莲花中的比例,但与其他已测序豆类物种中的比例相似。

此外,还分析了小豆基因组中编码R蛋白的基因,并将其与其他豆科植物进行了比较。共检测到421个含有NBS或LRR结构域的基因,显著低于大豆和普通豆。然而,红豆基因组中的 CC_NBS 基因明显多于大豆。这些信息应该有助于确定导致植物病害和抗病育种的基因。

小豆豆味很低,含有易消化的蛋白质和丰富的生物活性化合物。因此分析了小豆等已测序豆科植物中与黄酮类生物合成、脂氧合酶(LOX)和胰蛋白酶抑制剂相关的基因,未观察到基因数比(基因组中基因数/总基因数)的显著差。但是,当检查导致大豆中豆腥味的LOX基因表达时,发现它们在小豆中的转录量明显低于大豆中的转录量,这些结果解释了小豆的低豆味。

豆科植物凝集素广泛分布于豆科植物中,是一种蛋白质毒性因子,与红细胞表面的糖蛋白相互作用,使红细胞凝集,是抑制动物生长、影响营养价值和营养的主要抗营养因子。大豆中的凝集素含量高,而红豆中的凝集素含量低。我们发现小豆中豆科植物凝集素基因的基因数量比显著低于除鹰嘴豆以外的其他已测序豆科植物物种。相对应的,小豆中的凝集素基因表达量显著低于大豆,尤其是Le1(大豆 (gmx:100818710)中一种重要的凝集素基因)。表明Le1可能在大豆种子凝集素积累中起主要作用。

分析七种豆科植物和拟南芥中的基因家族扩展和收缩。8 个物种的所有 26,120 个基因家族中,在从普通豆形成后的 1400 万年期间,红豆中分别有5.39%(1,407)和 7.83%(2,046)的基因大幅扩增和收缩,而大豆比普通豆和小豆具有更多的扩张基因家族,表明大豆在基因家族中具有普遍的扩张性,与其较大的基因数量一致。红豆扩张基因家族中的基因GO功能富集在锌离子结合、蛋白水解、半胱氨酸型肽酶活性、内肽酶活性、内肽酶抑制剂活性、脂质结合和脂质转运;收缩基因家族富集在在蛋白丝氨酸/苏氨酸激酶活性、蛋白激酶活性、蛋白酪氨酸激酶活性和防御反应。

image.png

基因组复制和共线性分析

通过直系同源搜索,在小豆基因组中检测到总共 1,501 个重复的共线性区块,基因数从 6 到 103 不等,平均为 11.7。四重简并第三密码子转换位点(4DTv)的核苷酸多样性在小豆基因组中显示出一个清晰的峰(4DTv∼0.36),与凤蝶科的全基因组重复(WGD)事件一致。我们没有确定在大豆中发现的最近 WGD (4DTv∼0.056) 的峰值,表明小豆与大多数已测序的豆类一样,没有这种甘氨酸特异性事件。进一步的系统发育分析表明,小豆从19.0-32.5万年前与木豆分歧,与大豆在16.9-29.0万年前,与菜豆在~5.6-15.0万年前。
image.png

七种豆类系统发育。A:系统发育树和分化时间,拟南芥为外群分类群;B:小豆、普通都和大豆基因组中4DTv 距离的分布。

共线性分析表明,与其他豆科植物相比,小豆与普通豆具有更高的保守性。小豆和普通豆的大部分染色体能够比对(例如,小豆2号染色体和普通豆7号染色体,小豆5号和普通豆5号染色体,小豆1号和普通豆3号染色体,以及小豆4号和3号染色体菜豆染色体9)。然而,红豆的一些染色体与普通豆的不止一条染色体匹配,表明物种形成后两个基因组中发生了染色体重排。
image.png
对红豆和大豆也进行了共线性比较。结果表明,每条红豆染色体都与大豆的几条染色体相匹配,表明物种形成后发生了更多的排列,这可能是最近大豆独立WGD的结果。

image.png

淀粉和脂肪酸生物合成和代谢基因

豆科植物是第二重要的作物科,根据种子中的储存化合物分为油类和非油类。红豆是典型的无油豆类,而大豆属于油类。与大豆相比,小豆种子含有更多的淀粉(57.06% vs. 25.3%)和更少的粗脂肪(0.59% vs. 22.5%)。为了研究这种差异背后的基础,我们分析了与淀粉和油生物合成相关的基因。

使用水稻中的淀粉生物合成基因作为查询序列,我们在红豆和大豆基因组中进行了直系同源搜索。红豆中发现的淀粉生物合成基因少于大豆(27 vs. 46),但χ 2检验结果表明,淀粉生物合成基因的比例(淀粉合成基因的数量) /总基因数)在这两个基因组之间没有显著差异。在 2013 年和 2014 年收集了两个生物学重复的两个物种的三个种子发育阶段(开始、发育和成熟种子)检查了这些基因的转录活性。发现小豆种子成熟期淀粉生物合成基因的总转录量和单个淀粉合成基因的平均转录量均显著高于大豆。但在种子发育的两个早期阶段没有观察到显著差异。另外,淀粉合成基因的转录在小豆连续增加,特别是在成熟种子的阶段,而这些基因在大豆中的发育和成熟阶段却降低了。

随后,我们在小豆和大豆基因组中寻找与质体中脂肪酸合成、油的合成和储存以及脂肪酸降解相关的基因。尽管在大豆中发现的基因多于红豆,但基因拷贝数相对于两个基因组的总基因数没有显着差异。在质体中有关的脂肪酸合成的基因的转录和油的合成和储存均明显高于大豆高于小豆。我们还发现两类基因表现出差异表达模式。与质体中脂肪酸合成相关的基因在红豆和大豆的早期发育阶段都表现出较高的转录水平,而油合成和储存基因的表达在大豆中保持不变,但在后期在红豆中表达减少。
image.png

红豆和大豆种子三个发育阶段淀粉生物合成( A )、质体中脂肪酸合成( B )、油的合成与贮藏( C )、脂肪酸降解( D )相关基因的转录量。

基于这些结果,推测大豆和小豆之间淀粉和油脂合成相关基因的转录量是导致两个物种淀粉和脂肪含量差异的原因。未来对不同物种的详细比较基因组分析将有助于回答潜在的机制。

多样性和驯化分析

半野生红豆的遗传基础存在争议,尚不清楚半野生红豆是与栽培种或野生红豆密切相关还是属于地方品种。

49个种质基因组的测序深度5.3×—27.34×。共鉴定了 5,539,411 个 SNP。

邻接法构树,11 个野生种质清楚地聚集在一个组中,而其余 39 个种质,包括半野生种质、地方品种和改良品种,则被分成另一个组。11 个半野生种质分布在地方品种和改良品种之间。

image.png

结果表明,半野生红豆与栽培种红豆的关系比野生型小。主成分分析表明,半野生红豆与地方品种和改良品种的关系比野生红豆更密切。群体结构显示出三种类型被分成三组时,K=3没有明显的混合。基于所有这些综合分析,半野生红豆似乎是一种独特的生态型,作为栽培种的祖先 ,而不是从古老的栽培品种和野生品种与栽培品种之间杂交的衍生物中逃脱。因此,我们在以下选择分析中将半野生红豆归类为地方品种。

地方品种和栽培品种之间检测到的选择压力明显低于野生和栽培品种之间的选择压力,地方种和栽培种之间的选择压明显低于野生和栽培种之间的选择压,如红豆 1 号染色体的Fst值(上图 D)。结果表明,从野生种质到栽培品种的驯化是彻底和连续的。选择区域中的基因主要富集在植物与病原体相互作用、植物激素信号转导、氨基苯甲酸降解、细胞周期和叶酸生物合成的 KEGG 途径中。

结论

获得了高质量的小豆基因组序列草图,其中86%以上的基因组被组装,大约80%的序列被分配到染色体上。总共预测了 34,183 个蛋白质编码基因。基因组重复分析显示,与大豆不同,红豆基因组缺乏最近的全基因组重复事件。与其他已测序的豆科植物基因组相比,红豆基因组与普通豆的同线性度高于大豆、木豆、紫花苜蓿、鹰嘴豆和莲花。更有趣的是,发现与大豆相比,红豆种子的低脂肪和高淀粉含量不是由基因拷贝数变异引起的,而是由基因表达量引起的。此外,还通过种群分析发现半野生红豆是一种初步的地方品种,其中有11个野生、11个半野生种质、17个地方品种和11个改良品种,并在驯化中检测到强烈的选择信号。

posted @ 2021-06-15 16:50  生物信息与育种  阅读(700)  评论(0编辑  收藏  举报