摘要:正则化、R包glmnet包:https://www.cnblogs.com/xiaogaobugao/p/17149331.html LASSO回归 什么是Lasso回归 Tibshirani(1996) 引入了 LASSO (Least Absolute Shrinkage and Selecti
阅读全文
随笔分类 - TCGA / TCGA_mRNA/lncRNA
摘要:生存分析:将事件的结果(终点事件)和出现这一结果所经历的时间结合起来的一种统计分析方法。 生存分析的目的:1.生存率比较:估计处理组和对照组n年的生存率和中位生存期。2.生存曲线比较:比较处理组和对照组的生存率是否有差别。3.影响因素分析:分析变量与生存结局/事件的关系。4.生存预测:根据变量预测患
阅读全文
摘要:生存分析只需要tumor数据,不要normal,将其去掉,新表达矩阵数据命名为exprSet;clinical信息需要进一步整理,成为生存分析需要的格式,新临床信息数据命名为meta。由于不同癌症的临床信息表格组织形式不同,这里的代码需要根据实际情况修改。 rm(list = ls()) optio
阅读全文
摘要:芯片和高通量测序(HTS): 对于基因芯片的差异表达分析而言,由于普遍认为其数据是服从正态分布,因此差异表达分析无非就是用t检验和或者方差分析应用到每一个基因上。目前在基因芯片的分析用的最多的就是limma。 高通量一次性找的基因多,于是就需要对多重试验进行矫正,控制假阳性。高通量测序(HTS)的r
阅读全文
摘要:limma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异结果差异)。DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异结果不差异)。 需要注意的是制
阅读全文
摘要:1. RTCGA包(了解) 数据库式的R包 优点:数据库式,将所有数据打包下载下来,可以在电脑上直接提取数据。 缺点:不是最新的数据。 library(RTCGA.rnaseq) #library(RTCGA.miRNASeq) library(RTCGA.clinical) ls("package
阅读全文
摘要:1. 整理表达矩阵 下载的文件是按样本存放的,每个tsv文件中都记录着一个样本的基因表达量,需要将所有tsv文件合并,得到所有样本的基因表达量的表格。 转录组数据合并 rm(list = ls()) library(stringr) library(jsonlite) library(progres
阅读全文
摘要:表达矩阵一般比较大,小的几百M,大的1-2个G,浏览器直接下载很慢,后台一直打包下载不下来。需要用 命令行下载。 gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 。此外,用 gdc-client.
阅读全文
摘要:1. 设置镜像 options(BioC_mirror="http://mirrors.tuna.tsinghua.edu.cn/bioconductor/") options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/")
阅读全文