用TCGA收集的mRNA表达数据作差异表达
做差异表达的软件DEseq和edgeR所需要的数据格式必须是原始counts,经过normalization和log2后的数据都不适合,所以对于做差异表达计算的童鞋可以使用
ExperimentHub下载TCGA的原始数据。
GEO地址:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944
安装:
首先安装环境要求BioC 3.4
## In R-3.3
library(BiocInstaller)
useDevel()
biocValid() # checks for out of date packages
biocLite() # (optional) updates out of date packages
升级到3.4后可以安装expermentHub
source("https://bioconductor.org/biocLite.R")
biocLite("ExpermentHub")
测试运行OK。
library(ExperimentHub)
eh = ExperimentHub()
query(eh , "GSE62944")
tcga_data <- eh[["EH1"]]
head(phenoData(tcga_data)$CancerType)