TCGA+GTEx基因表达数据合并 | 多癌种表达分析

 

这个功能GEPIA2已经实现了,http://gepia2.cancer-pku.cn/#dataset

但问题是它的数据不能导出,原图太丑,不能直接发表,那就没办法了,只能自己下载数据作图了。

 

TCGA数据可以批量下载

GTEx数据也很容易下载

但如何把TCGA的cancer type比对到GTEx特点组织 ,还是有点难度的。

有些cancer没有对应的正常组织,有些正常组织也没有对应的癌症。

最终终于在这里找到了对应的表。

注意:

  • TCGA的数据还是很粗犷的,得到什么DEG完全取决你怎么比;
  • 得到靠谱DEG的前提:对比组选对了,样本量足够大,否则就是扯淡;

 

其实UCSC Xena已经把整合的数据整理好了,这里可以直接下载,省去了大量的curation的时间:

  • A combined cohort of TCGA, TARGET and GTEx samples
  • https://xenabrowser.net/datapages/?cohort=TCGA%20TARGET%20GTEx&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443 

 

奇怪的点:

  • UCSC Xena下载的TPM里居然有大量负数,扯淡了;
  • 最终可以用这个替代:RSEM expected_count (DESeq2 standardized)

 

小常识:TARGET data is intended exclusively for biomedical research using pediatric data

这是儿科的数据,可以过滤掉。

 

参考:http://localhost:17435/notebooks/data_center/public_DB/TCGA-GTEx-all-Cancers.ipynb 

 

参考:

 

posted @ 2024-04-11 22:30  Life·Intelligence  阅读(1003)  评论(0编辑  收藏  举报
TOP