Improving gene annotation of peanut genome by integrated proteogenomics workflow（通过整合的蛋白质组学工作流程改善花生基因组的基因注释）解读人：卜繁宇

期刊名：J. Proteome Res.

发表时间：2020年5月

IF：3.86

单位：广东省农业科学院

物种：花生

技术：蛋白质基因组学

一、 概述：）

本研究采用蛋白质基因组学策略，整合花生多个组织（种子、壳、雌蕊柄）的RNA-Seq和蛋白质组学数据，以改善花生的基因注释。最终，在蛋白水平上发现了13767个带注释的基因、35个经过修正的基因注释和7个新的蛋白质编码基因。

二、 研究背景：

花生是热带半干旱和亚热带的重要农作物。为了更好地了解花生的分子基础，获得高质量的基因组注释是至关重要的。由于已经对花生基因组进行了测序，因此通过整合基因预测算法、cDNA序列和比较基因组，对花生进行基因注释。但目前的基因注释还不完整。因此，本文旨在通过蛋白质基因组学的方法，整合基因组、转录组和蛋白质组数据，提高花生基因组的基因注释。

三、实验设计：

四、研究成果：

1、新肽的鉴定

本研究中蛋白质基因组工作流程的概述如图1所示。

自定义蛋白质数据库包括三组不同的蛋白质序列：（1）已知的NCBI蛋白序列（100,775条），（2）利用Augustus基因从头预测的蛋白序列（698,820条）和（3）RNA-Seq数据衍生的新转录本蛋白序列（967,048条），去除冗余序列，最终得到1,692,402条蛋白序列。

三个搜索引擎(MS-GF+, X!Tandem and MyriMatch)比对自定义蛋白质数据库，共鉴定出56,288个肽段（表2总结了每个数据集的详细鉴定结果）。其中，56,109个已知的肽段可以比对到已知的蛋白上，179个新肽段不能比对到任何已知的蛋白序列上。这179个新肽段中，有122个(68.2%)同时存在于DB2和DB3中，33个(18.4%)只存在于DB2中，24个(13.4%)只存在于DB3中。并且这些新肽的质量较高（见图S2）。

如图S3所示，新鉴定蛋白质的平均长度为198，已知蛋白质的平均长度为456。新蛋白质的平均长度比已知蛋白质短，这可能表明编码短蛋白的基因在之前的注释中容易丢失。

2、对现有注释的验证

如图2所示，本研究共鉴定9,641个蛋白组(17,037个蛋白)，其中8024个蛋白(83%)具有两个以上unique肽段，鉴定结果高可信度；其中70%的蛋白位于叶绿体、细胞核和细胞质上。此外，这些鉴定的已知蛋白主要参与生长、发育和代谢途径。

3、修正注释基因模型

本研究通过对自定义蛋白质数据库的MS/MS数据搜索，检测到35个修订的基因。如表3所示，本研究找到了25个假基因的翻译证据，几个新的肽段被唯一的比对到2个LncRNA上。通过BLAST进一步验证这些假基因的编码可行性，结果显示这些蛋白与已知蛋白具有较强的序列相似性(blast E-value < 1e-30)。功能分析表明，这些LncRNA具有与RNA加工修饰相关的功能。图3显示了可翻译的假基因和可翻译的LncRNA。

4、新基因

本研究使用Augustus来预测潜在的新基因模型并根据RNA-Seq数据预测新的转录本，两种方法分别预测了524,202和40,815个潜在基因。在本研究中共鉴定了7个新的蛋白质编码基因，这些基因具有≥2个肽段，其中至少一个是unique肽段。共有17个新肽段被定位到7个新基因上。利用BLAST比对NCBI非冗余数据库，结果显示这些新基因与至少一种已知蛋白质具有显著的序列相似性。根据其序列相似性，利用Blast2GO和KOBAS推断新基因的功能，发现几个新的基因匹配到ATP合酶β亚基。图5展示了一个新基因。

五、文章亮点（结论讨论）：

采用蛋白质基因组学策略，整合RNA-Seq和蛋白质组学数据来改善花生的基因注释，提高了对花生生物学特性的理解，特别是7个新的蛋白质编码基因和35个修订的基因注释。此外，本研究中使用的研究方法可用于对其他物种进行蛋白质组学分析。

阅读人：卜繁宇

DOI：10.1021/acs.jproteome.9b00723

posted @ 2020-09-11 11:02 ilifeiscience 阅读(307) 评论(0) 收藏举报

刷新页面返回顶部

ilifeiscience

Improving gene annotation of peanut genome by integrated proteogenomics workflow（通过整合的蛋白质组学工作流程改善花生基因组的基因注释）解读人：卜繁宇

公告