教小高改bug

  博客园 :: 首页 :: 博问 :: 闪存 :: :: 联系 :: :: 管理 ::

1. 热图

输入数据是数值型矩阵 / 数据框

颜色的变化表示数值的大小


2. 散点图和箱线图

散点图和箱线图的差别:箱线图就是散点图把横坐标弱化的结果。弱化个体的概念,强化群体的概念,把同一个分组放到一起,就形成了箱线图。

箱线图的输入数据是一个数值型向量和一个字符串向量(重复值)

箱线图:

   

箱线图的作用:单个基因在两组之间的表达量差异。如果是多个基因,则需要量化指标:logFC,P.Value,来界定一个基因是否属于差异基因。

  


 3. 火山图

logFC:

Foldchange(FC):处理组平均值 / 对照组平均值

logFoldchange(logFC):Foldchange取log2,处理 / 对照表达量差异倍数的log值

logFC = log2(x/y) = log(x) - log(y):处理组表达量的log平均值log(x) - 对照组表达量的log平均值log(y) 

logFC一般在10以内,差距为210 = 1024倍。大多在5以内。

结论:

logFC > 0,treat > control,基因表达量上升;

logFC < 0,treat < control,基因表达量下降。

通常所说的上调、下调基因是指表达量显著上升/下降的基因。“显著”需结合P值

如:

上调基因:logFC >  1(处理组在对照组的2倍以上),p < 0.01

下调基因:logFC < -1(处理组在对照组的1/2以下),p < 0.01

常见的logFC有1(2倍),1.2,1.5,2(4倍),2.2...

常见的P的取值有0.05,0.01...

P.Value

P值越小,纵座标 “-log10(Pvalue)” 越大,差异越显著。

右上角的点上调大,P值小

左上角的点下调大,P值小


 4. PCA(主成分分析)

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)

根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

目的:看两个或多个分组之间能否分得开,能否找到差别。是一种质控的手段。

横坐标:变量;纵坐标:每个样本在变量上的具体值。一个样本是一条线。但样本量大时比较乱。

提取主成分1和主成分2作为横纵坐标,将上述线转换成点,一个点表示一条线:

这种形式会更加清晰。

 

posted on 2022-09-08 18:38  小高不高  阅读(2319)  评论(0编辑  收藏  举报