生信分析 - 小高不高

为什么生信分析会这么火？

最重要的原因是便宜、性价比高

一方面，各种公开的免费生信数据库和生信可视化分析工具越来越多，即使没有课题经费，按差异表达、聚类分析、交互网络、临床意义四步走做一套生信分析，也能无中生有发一套生信文章。

另一方面，随着高通量测序成本的不断下降，有越来越多的医生或者研究人员也慢慢也能做的起各种组学测序了。

生信发章仍被各个医院/科研机构所认可

不少医生和医学生有动力选择用生信文章作为毕业和晋职称的敲门砖。发基础科研与生信分析类文章没有被差别对待，而且这两者之间也没有明显的界限。

第一点，生信文章是属于article而非review的，属于正二八经的实验类文章；
第二点，生信文章和基础科研的界限很难完全界定，比如生信分析中加了免疫组化/WB的验证，也是可以归类于基础科研的文章；
第三点，是一个小心机了，生信文章的题目起的隐蔽一点，没有TCGA或者GEO这样的词汇，一般是很难区分是生信文章还是基础科研文章的。

生信分析有什么用？

在我看来，生信其实解决了四方面的筛选和预测：

①首先可以通过筛选差异表达基因，找关键基因signature，或者缩小范围找Hub gene，预测潜在的biomarker；

②其次，也可以通过对通路或者生物学功能的富集聚类分析，筛选出潜在的分子作用机制或者相关通路；

③另外，可以通过数据库预测靶基因、转录因子、互作分子、邻近分子等，筛选与目标分子直接或者间接作用的分子；

④最后一点，根据预测目标基因或者基因集合的诊断、预后和复发情况。

生信分析如何分类？

按套路组合来分

可以分为单基因分析套路，ceRNA分析套路，转录因子分析套路，m6A甲基化分析套路，网络药理学分析套路，基因signature分析套路，临床预测模型分析套路，多组学分析套路，泛癌分析套路等等。

按疾病大类来分

可以分为肿瘤方向的生信分析和非肿瘤方向的生信分析。

肿瘤和非肿瘤分析最大的不同还是在于数据的来源上面。

肿瘤研究有很多公开的与肿瘤相关的高通量数据库，比较著名的有TCGA、Oncomine、Cbioportal、GEPIA, UCSC XENA、Timer等数据库，这些数据库样本量大，临床和预后信息全面，有的提供了多组学数据的下载和分析，有的还提供了直接在线出图的可视化分析。可谓是应有尽有。

而反观非肿瘤研究领域，一方面能用的数据库有限，在线直接分析的数据库有限。数据库中其中最有名的当属GEO，另外ArrayExpress也提供了非肿瘤疾病的下载。这两个数据库都是泛疾病数据库，不仅非肿瘤，肿瘤的数据也有；不仅人类，大鼠小鼠或者其他物种的测序数据也能搜到。另一方面，这些数据库中一般都只有基因表达矩阵的数据，临床或预后数据缺少，一般能有个年龄、性别、疾病阶段就算数据量比较多的数据集了，也因为这样，很多临床相关性、预后分析就做不了。

其实说到底，非肿瘤生信分析文章之所以不如肿瘤领域的两点原因，一个是没数据，一个是临床信息不够。自己没数据，公共数据集也没有，就发不了。

当然，如果你跟了个土豪老板，即使非肿瘤疾病，临床数据全，自己的测序样本够，甚至还有点多组学数据，用肿瘤领域的套路来做也是没有问题的。

非肿瘤领域发生信有优势吗？

当然有！相同的研究套路在肿瘤领域迁移到非肿瘤领域，可以实现降维打击，可以发到更好的分数。

因为数据量比较少，先批研究这个小众疾病领域的人属于开拓者呀。我还见过最简单的差异表达/富集分析/互作网络，样本量也不多，在猪来源的生信研究中轻轻松松3分加。

非肿瘤研究中有哪些研究套路和分析方法？

生信分析中有四大类分析，表达差异，聚类分析，交互网络，临床意义这四步分来拆解。简称挑圈联靠。

我们从最简单的套路讲起。

挑：在表达差异这步。首先，可以对芯片或者测序分析的对照组和疾病组做差异表达分析，筛选出几十、几百或者上千的差异表达基因。可视化形式以火山图为主。

圈：在聚类分析这里。可以对筛选出来的差异表达基因进行GO和KEGG的富集分析，也可以基于整个基因表达矩阵进行GSEA的富集分析，筛选得到相关的生物学功能和通路。

联：然后到了分子互作网络这里。最常见的是通过STRING数据库构建蛋白互作网络，再通过Cytoscape这个软件进行美化，用CytoHubba或者Mcode这些插件找关键基因。有的文章中，还通过功能基因预测相应的miRNA构建可视化网络。

靠：最后的临床意义这块，一般非肿瘤疾病的临床信息是缺少的，相应也没有这部分内容的分析。

低分灌水有哪些加分策略

如果有余力多做一点工作，可以让文章看上去数据更饱满，发的影响因子更高一点的方法。其实俗称是凑数据。

第一：可以一上来加个流程图，让读者一目了然你的分析流程。

第二：每一步分析，紧跟一步解释性动作。

在差异基因筛选之前，可以放一下患者样本校正前后的小提琴图，PCA或者热图的聚类图，说明样本本身的质量如何，对照组与疾病组有没较好的区分度。

还可以把GO和KEGG富集分析完，把基因的通路描述，计算出来的P vaule, count, Category，Pathway ID，然后再列个表。

再比如通过互作网络筛选到10-20个关键基因，是不是也能列个表，把基因缩写、全名以及基因的功能列一列呢？

第三：是增加研究的细节。

比如多个不同的数据集合并分析，既可以取交集差异基因，统一做GO/KEGG富集分析，也可以这些数据集的差异表达基因分别做功能富集分析，比较不同数据集所得结果的差别；

另外，差异表达分析这步，分别筛选出了上调/下调的差异表达基因，后续的富集分析和互作网络分析，既可以统一把上调和下调合并起来分析，也可以分上调下调分别进行分析。

或者一开始从一开始筛选差异基因的时候，与Immport免疫数据库或者Genecards数据库中获得的免疫基因列表取交集，获得差异的免疫相关基因，后续研究也都可以从免疫的角度入手。

也可以从Genecards中筛选一下表型相关基因，比如输入自噬呀，凋亡呀，可以获得这些表型相关的基因列表进行后续研究。

第四：加样本表达的验证

如果想加一下目的基因在对照组与正常组的表达情况，可以根据芯片测序的结果做出统计分析图；

想要更直观点的实验验证，偷懒的办法是借用在线数据库Human protein atlas数据库，里面有很多关于蛋白的研究信息，有蛋白在人体不同组织脏器、细胞内定位、不同肿瘤中的表达情况。可以很方便的获得木的基因的免疫组化的结果。

如果还想加一步干湿结合的验证，可以把筛选出来的关键基因或者靶基因，进行PCR, WB或免疫组化、免疫荧光的相关验证。

posted on 2023-02-16 23:45 小高不高阅读(1753) 评论(0) 收藏举报

刷新页面返回顶部

教小高改bug