TCGA+GTEx基因表达数据合并 | 多癌种表达分析
2025年01月08日
新的探索
gepia2的Python包无法使用,没法通过API得到数据
突然发现DEG列表可以全部导出,http://gepia2.cancer-pku.cn/#degenes,设置一下阈值即可。
我发现有极个别基因,如NME2,log2FC是相反的,跟我自己手动做的,不知道是为什么。绝大部分基因的相关性还是很强的。参考:http://localhost:17449/lab/tree/projects/public_resources/public_DB/DepMap-CRC-org-viability-screen.ipynb#muanual-vs-gepia
检查了一个spatial的数据,我还是更相信gepia的结果。
这个功能GEPIA2已经实现了,http://gepia2.cancer-pku.cn/#dataset
但问题是它的数据不能导出,原图太丑,不能直接发表,那就没办法了,只能自己下载数据作图了。
TCGA数据可以批量下载
GTEx数据也很容易下载
但如何把TCGA的cancer type比对到GTEx特点组织 ,还是有点难度的。
有些cancer没有对应的正常组织,有些正常组织也没有对应的癌症。
最终终于在这里找到了对应的表。
- http://gepia2.cancer-pku.cn/#dataset
- TCGA GTEx数据联合分析流程
注意:
- TCGA的数据还是很粗犷的,得到什么DEG完全取决你怎么比;
- 得到靠谱DEG的前提:对比组选对了,样本量足够大,否则就是扯淡;
其实UCSC Xena已经把整合的数据整理好了,这里可以直接下载,省去了大量的curation的时间:
- A combined cohort of TCGA, TARGET and GTEx samples
- https://xenabrowser.net/datapages/?cohort=TCGA%20TARGET%20GTEx&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443
奇怪的点:
- UCSC Xena下载的TPM里居然有大量负数,扯淡了;
- 最终可以用这个替代:RSEM expected_count (DESeq2 standardized)
小常识:TARGET data is intended exclusively for biomedical research using pediatric data
这是儿科的数据,可以过滤掉。
参考:http://localhost:17435/notebooks/data_center/public_DB/TCGA-GTEx-all-Cancers.ipynb
参考:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2018-04-11 条件随机场 | Conditional Random Fields
2018-04-11 文献导读 - Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation