表达矩阵一般比较大,小的几百M,大的1-2个G,浏览器直接下载很慢,后台一直打包下载不下来。需要用 命令行下载。 gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 。此外,用 gdc-client.exe 下载的话还需要额外安装 Strawberry。
临床数据包比较小,一般就几个M,用浏览器直接下载就可以了。
1. 下载表达数据文件
在工作目录下创建expdata文件夹,用来存放下载的表达数据文件
GDC官网: https://portal.gdc.cancer.gov/
选择数据前记得清空购物车。
在Repository勾选需要的case和file类型。
mRNA转录组数据的file类型如下:
选好后添加到Cart,进入Cart界面下载。
表达数据文件包括:Manifest、Metadata。(这两个文件很小,不需要调用IDM等下载器)
文件注释:
Manifest:txt文件,清单文件。用 gdc-client.exe 下载文件要用到。
Manifest文件长这样:
其中,“id”为各文件夹名称,“filename”为tsv文件名称。
Metadata:json文件,包括文件信息和样本的关系。数据分析要用。
Metadata文件长这样:
其中,“associated_entities”下的“entity_submitter_id”为该tsv文件对应的样品id,“file_name”为样本对应的tsv文件名称,“file_id”为该文件所属的文件夹。
下载好两个文件后,把这两个文件连同 gdc-client.exe 文件一起放在工作目录下。然后在 cmd 或者 powershall 中运行以下命令:
(不要直接复制粘贴,用手打。因为manifest文件名每次都不一样)
1 2 3 4 5 6 7 8 | gdc-client.exe download -m gdc_manifest_expdata.2020-03-23.txt -d expdata # 代码解析: # gdc-client:下载工具文件 # download:函数,实现下载功能 # -m:download的参数,表示manifest,清单文件 # gdc_manifest_cl.2020-03-23.txt:-m参数的值,需修改(与manifest文件名一致) # -d:download的参数,表示directory,下载路径 # clinical:-d参数的值 |
下载好的文件是按样本存放的,每个样品一个文件夹,每个文件夹下都有一个tsv文件。tsv文件长这样:
其中,“gene_id”为Ensembl id;“gene_name”为symbol id;“gene_type”为该基因的类型,有protein coding(mRNA),lncRNA,这两个种RNA是常用的。另外,miRNA的分析得单独下载。unstranded就是count数,tpm和fpkm是常用的标准化数据,但tpm更好一些。
如果是做差异分析的话,建议采用counts ,有不少的差异分析的软件都是基于counts数,比如edgeR和DEseq2,要求输入的为counts数。如果是计算样品间的相关性,聚类等,那就可以采用均一化的TPM。
TPM与FPKM的区别:从计算公式来说,唯一的不同是计算操作的顺序,TPM是先去除了基因长度的影响,而FPKM是先去除测序深度的影响,TPM实际上改进了FPKM方法在跨样品间定量的不准确性。
2. 下载临床数据文件
清空Cart。临床数据的file类型如下:
选好后添加到Cart,进入Cart界面下载。(浏览器直接下载,不要调用IDM,否则可能下载到上次下载的文件)
表达数据文件包括:
下载好的文件时gz压缩包,解压后将文件夹重命名为 “clinical”。
一个病人对应一个xml文件。xml文件长这样:
有点杂乱,之后统一读进R语言里就比较清晰了。
查看一下下载文件的数量
1 2 | length ( dir ( "./clinical/" )) length ( dir ( "./expdata/" )) |
下载的文件是按样本存放的,我们需要得到的是表格,需要将他们批量读入R语言并整理。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!