文献复现 | Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification
基本常识:
- 什么是biomarker?What are Biomarkers?
- 这几种模型的区别:ElasticNet, Support Vector Machines, k-Nearest Neighbors, Random Forests 和 feed-forward neural networks
- grid search of the hyperparameter space是用来干什么的?
- five-fold cross validation是用来干什么的?
- 不同模型的优劣用什么来评估?ROC和AUC分别是什么?
- 重要特征分析 Feature Importance Analysis是什么?
- Signaling Pathway Analysis
计时,看看要花多久。
Day1:20:15 - 21:59,1个半小时
下载GSE芯片CEL数据:
12 datasets【一个文献算一个数据集】
- GSE1428 (Giresi et al., 2005)
- GSE25941 (Raue et al., 2012)
- GSE28392 (Raue et al., 2012)
- GSE28422 (Raue et al., 2012)
- GSE38718 (Liu et al., 2013)
- GSE40645 (Gheorghe et al., 2014)
- GSE47881 (Phillips et al., 2013)
- GSE47969 (Sood, 2015)
- GSE59880 (Timmons et al., 2010; Keller et al., 2011; Sood, 2015)
- GSE80 (Welle et al., 2002)
Affymetrix Expression Array Intensity files (.cel)
下载GTEx数据集:
https://www.gtexportal.org/home/datasets
主要下载count matrix以及四个样本的注释文件。
因为没有处理过CEL格式的芯片数据,需要先看看教程:芯片数据分析,so easy?
批量解压tar文件【没法直接全部解压】解压需要花点时间
ls *.tar | xargs -n1 tar xvf
# 解压到各自目录里,查看文件个数 for i in `ls *.tar` do mkdir ./${i/.tar//} tar xvf $i -C ${i/.tar//} done
# 计数确认文件数量 ls *_RAW/*CEL.gz | cut -f1 -d/ | uniq -c
其中GSE40645_RAW的文件不是CEL格式的,需要注意一下。
CEL文件转表达矩阵【可以直接用R函数读取矩阵和样本注释信息】
构建软链接
ln -s ../*/*CEL.gz ./
R函数代码
library(GEOquery) gset <- getGEO("GSE40645", GSEMatrix =TRUE, AnnotGPL=TRUE ) # show(gset) exprSet <- exprs(gset[[1]]) exprSet[1:5,1:5] pData <- pData(gset[[1]]) head(pData)
Day2:
待续~
参考:
- ROC曲线与AUC值
- 关于深度学习在生物学领域的应用分析
-
scikit-learn Machine Learning in Python - example
- Hyperparameter Optimization With Random Search and Grid Search