1. 热图
输入数据是数值型矩阵 / 数据框
颜色的变化表示数值的大小
2. 散点图和箱线图
散点图和箱线图的差别:箱线图就是散点图把横坐标弱化的结果。弱化个体的概念,强化群体的概念,把同一个分组放到一起,就形成了箱线图。
箱线图的输入数据是一个数值型向量和一个字符串向量(重复值)
箱线图:
箱线图的作用:单个基因在两组之间的表达量差异。如果是多个基因,则需要量化指标:logFC,P.Value,来界定一个基因是否属于差异基因。
3. 火山图
logFC:
Foldchange(FC):处理组平均值 / 对照组平均值
logFoldchange(logFC):Foldchange取log2,处理 / 对照表达量差异倍数的log值
logFC = log2(x/y) = log(x) - log(y):处理组表达量的log平均值log(x) - 对照组表达量的log平均值log(y)
logFC一般在10以内,差距为210 = 1024倍。大多在5以内。
结论:
logFC > 0,treat > control,基因表达量上升;
logFC < 0,treat < control,基因表达量下降。
通常所说的上调、下调基因是指表达量显著上升/下降的基因。“显著”需结合P值。
如:
上调基因:logFC > 1(处理组在对照组的2倍以上),p < 0.01
下调基因:logFC < -1(处理组在对照组的1/2以下),p < 0.01
常见的logFC有1(2倍),1.2,1.5,2(4倍),2.2...
常见的P的取值有0.05,0.01...
P.Value
P值越小,纵座标 “-log10(Pvalue)” 越大,差异越显著。
右上角的点上调大,P值小
左上角的点下调大,P值小
4. PCA(主成分分析)
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。
目的:看两个或多个分组之间能否分得开,能否找到差别。是一种质控的手段。
横坐标:变量;纵坐标:每个样本在变量上的具体值。一个样本是一条线。但样本量大时比较乱。
提取主成分1和主成分2作为横纵坐标,将上述线转换成点,一个点表示一条线:
这种形式会更加清晰。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)