文献复现 | Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification

原始论文:Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification

 

基本常识:

  • 什么是biomarker?What are Biomarkers?
  • 这几种模型的区别:ElasticNet, Support Vector Machines, k-Nearest Neighbors, Random Forests 和 feed-forward neural networks
  • grid search of the hyperparameter space是用来干什么的?
  • five-fold cross validation是用来干什么的?
  • 不同模型的优劣用什么来评估?ROC和AUC分别是什么?
  • 重要特征分析 Feature Importance Analysis是什么?
  • Signaling Pathway Analysis

 

计时,看看要花多久。

Day1:20:15 - 21:59,1个半小时

 

下载GSE芯片CEL数据:

12 datasets【一个文献算一个数据集】

  1. GSE1428 (Giresi et al., 2005)
  2. GSE25941 (Raue et al., 2012)
  3. GSE28392 (Raue et al., 2012)
  4. GSE28422 (Raue et al., 2012)
  5. GSE38718 (Liu et al., 2013)
  6. GSE40645 (Gheorghe et al., 2014)
  7. GSE47881 (Phillips et al., 2013)
  8. GSE47969 (Sood, 2015)
  9. GSE59880 (Timmons et al., 2010; Keller et al., 2011; Sood, 2015)
  10. GSE80 (Welle et al., 2002)

Affymetrix Expression Array Intensity files (.cel)

 

下载GTEx数据集:

https://www.gtexportal.org/home/datasets

主要下载count matrix以及四个样本的注释文件。

 

因为没有处理过CEL格式的芯片数据,需要先看看教程:芯片数据分析,so easy?

 

批量解压tar文件【没法直接全部解压】解压需要花点时间

1
ls *.tar | xargs -n1 tar xvf
1
2
3
4
5
6
# 解压到各自目录里,查看文件个数
for i in `ls *.tar`
do
mkdir ./${i/.tar//}
tar xvf $i -C ${i/.tar//}
done
1
2
# 计数确认文件数量
ls *_RAW/*CEL.gz | cut -f1 -d/ | uniq -c

  

其中GSE40645_RAW的文件不是CEL格式的,需要注意一下。  

  

CEL文件转表达矩阵【可以直接用R函数读取矩阵和样本注释信息】

构建软链接

1
ln -s ../*/*CEL.gz ./

  

R函数代码

1
2
3
4
5
6
7
8
9
10
11
12
13
library(GEOquery)
 
gset <- getGEO("GSE40645", GSEMatrix =TRUE, AnnotGPL=TRUE )
 
# show(gset)
 
exprSet <- exprs(gset[[1]])
 
exprSet[1:5,1:5]
 
pData <- pData(gset[[1]])
 
head(pData)

  


 

 

Day2:

 

 

 

待续~

 

参考:

 

posted @   Life·Intelligence  阅读(147)  评论(0编辑  收藏  举报
(评论功能已被禁用)
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
历史上的今天:
2016-12-21 纠错工具之 - Proovread
2016-12-21 《生物序列分析》
TOP
点击右上角即可分享
微信分享提示