文献复现 | Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification
基本常识:
- 什么是biomarker?What are Biomarkers?
- 这几种模型的区别:ElasticNet, Support Vector Machines, k-Nearest Neighbors, Random Forests 和 feed-forward neural networks
- grid search of the hyperparameter space是用来干什么的?
- five-fold cross validation是用来干什么的?
- 不同模型的优劣用什么来评估?ROC和AUC分别是什么?
- 重要特征分析 Feature Importance Analysis是什么?
- Signaling Pathway Analysis
计时,看看要花多久。
Day1:20:15 - 21:59,1个半小时
下载GSE芯片CEL数据:
12 datasets【一个文献算一个数据集】
- GSE1428 (Giresi et al., 2005)
- GSE25941 (Raue et al., 2012)
- GSE28392 (Raue et al., 2012)
- GSE28422 (Raue et al., 2012)
- GSE38718 (Liu et al., 2013)
- GSE40645 (Gheorghe et al., 2014)
- GSE47881 (Phillips et al., 2013)
- GSE47969 (Sood, 2015)
- GSE59880 (Timmons et al., 2010; Keller et al., 2011; Sood, 2015)
- GSE80 (Welle et al., 2002)
Affymetrix Expression Array Intensity files (.cel)
下载GTEx数据集:
https://www.gtexportal.org/home/datasets
主要下载count matrix以及四个样本的注释文件。
因为没有处理过CEL格式的芯片数据,需要先看看教程:芯片数据分析,so easy?
批量解压tar文件【没法直接全部解压】解压需要花点时间
1 | ls *. tar | xargs -n1 tar xvf |
1 2 3 4 5 6 | # 解压到各自目录里,查看文件个数 for i in ` ls *. tar ` do mkdir ./${i/. tar // } tar xvf $i -C ${i/. tar // } done |
1 2 | # 计数确认文件数量 ls *_RAW/*CEL.gz | cut -f1 -d/ | uniq -c |
其中GSE40645_RAW的文件不是CEL格式的,需要注意一下。
CEL文件转表达矩阵【可以直接用R函数读取矩阵和样本注释信息】
构建软链接
1 | ln -s ../*/*CEL.gz ./ |
R函数代码
1 2 3 4 5 6 7 8 9 10 11 12 13 | library (GEOquery) gset <- getGEO ( "GSE40645" , GSEMatrix = TRUE , AnnotGPL= TRUE ) # show(gset) exprSet <- exprs (gset[[1]]) exprSet[1:5,1:5] pData <- pData (gset[[1]]) head (pData) |
Day2:
待续~
参考:
- ROC曲线与AUC值
- 关于深度学习在生物学领域的应用分析
-
scikit-learn Machine Learning in Python - example
- Hyperparameter Optimization With Random Search and Grid Search
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2016-12-21 纠错工具之 - Proovread
2016-12-21 《生物序列分析》