摘要:limma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异结果差异)。DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异结果不差异)。 需要注意的是制
阅读全文
09 2022 档案
摘要:1. RTCGA包(了解) 数据库式的R包 优点:数据库式,将所有数据打包下载下来,可以在电脑上直接提取数据。 缺点:不是最新的数据。 library(RTCGA.rnaseq) #library(RTCGA.miRNASeq) library(RTCGA.clinical) ls("package
阅读全文
摘要:1. 整理表达矩阵 下载的文件是按样本存放的,每个tsv文件中都记录着一个样本的基因表达量,需要将所有tsv文件合并,得到所有样本的基因表达量的表格。 转录组数据合并 rm(list = ls()) library(stringr) library(jsonlite) library(progres
阅读全文
摘要:表达矩阵一般比较大,小的几百M,大的1-2个G,浏览器直接下载很慢,后台一直打包下载不下来。需要用 命令行下载。 gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 。此外,用 gdc-client.
阅读全文
摘要:1. 设置镜像 options(BioC_mirror="http://mirrors.tuna.tsinghua.edu.cn/bioconductor/") options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/")
阅读全文
摘要:蛋白互作网络图 - 网页工具string 输入数据:差异基因 输出:一个ppi图,可以导出数据 放入Cytoscape进行网络可视化 制作string的输入数据 setwd("D:/R/CHOL") load("step4output.Rdata") gene_up = deg[deg$change
阅读全文
摘要:1. 配对样本的差异分析 在差异分析的数据处理中,只有design这一行代码有区别 pairinfo = factor(c(1,2,1,3,2,3)) design = model.matrix(~group_list + pairinfo) 配对信息:1,2,3分别为三个病人; 分组信息:由gro
阅读全文
摘要:0. 准备 setwd("D:/R/CHOL") rm(list = ls()) load(file = "step4output.Rdata") library(clusterProfiler) library(dplyr) library(ggplot2) 构建kegg_plot函数(以up_k
阅读全文
摘要:0. 准备 setwd("D:/R/CHOL") rm(list = ls()) load(file = "step1output.Rdata") load(file = "step4output.Rdata") 1. 火山图 画不带基因标签的火山图 library(dplyr) library(g
阅读全文
摘要:0. 准备 setwd("D:/R/CHOL") rm(list = ls()) load(file = "step2output.Rdata") 1. 差异分析 差异分析,用limma包来做 需要表达矩阵(exp)和分组信息(group_list),不需要改 library(limma) desi
阅读全文
摘要:0. 准备 setwd("D:/R/CHOL") rm(list = ls()) load(file = "step1output.Rdata") load(file = "step2output.Rdata") 1. 主成分分析图(Principal Component Analysis,PCA)
阅读全文
摘要:0. 准备 setwd("D:/R/CHOL") rm(list = ls()) load(file = "step1output.Rdata") library(stringr) 1. group_list(实验分组) 第一类,现成的某一列或在某列中包含(少见) group_list = pd$t
阅读全文
摘要:0. 准备 setwd("") rm(list = ls()) options(stringsAsFactors = F) library(GEOquery) library(limma) library(tidyverse) 1. 数据下载 # 下载Series Matrix File(s) gs
阅读全文
摘要:1. 设置镜像 options("repos" = "https://mirrors.ustc.edu.cn/CRAN/") if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F) options(
阅读全文
摘要:1. 热图 输入数据是数值型矩阵 / 数据框 颜色的变化表示数值的大小 2. 散点图和箱线图 散点图和箱线图的差别:箱线图就是散点图把横坐标弱化的结果。弱化个体的概念,强化群体的概念,把同一个分组放到一起,就形成了箱线图。 箱线图的输入数据是一个数值型向量和一个字符串向量(重复值) 箱线图: 箱线图
阅读全文
摘要:实验设计 实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象 病变组织 vs 健康组织 药物处理 vs 对照组 ...... 有差异的材料 → 差异基因 → 代谢通路 / 功能注释 → 解释差异的原理 GEO数据: 用户提交给GEO的样本数据。(GSM) 一个完整的研究,并提供了整个研
阅读全文