PAM50怎么计算

公告

View Post

看来还得和临床结合才知道为什么提出问题

问题的背景

为什么提出PAM50分型，因为乳腺癌病人的异质性特别大，所以需要将这些病人进行一个分型，以便更好的治疗。

发展的历史

最初是根据免疫组化的三个指标进行分型的

HR+ HER2-
HR+ HER2+
HR- HER2+
TNBC

随着RNA-seq的发展，得到的信息更多，于是提出了PAM50分型，也就是根据这50个分子去确定乳腺癌的表型。50个分子怎么确定的呢？又分为哪几类呢？
50个分子的确定：根据层次聚类的结果将病人分为5类，选择每一类里面top10的基因，一共50个基因。
划分的五类[1]：

这两个分型之间存在什么关系呢？下面是一篇文章计算出来的结果[2]

怎么计算

不讲原理只放代码感觉有点耍流氓，那还是先讲原理把
首先根据找到的病人层次聚类，找到5组病人50个基因的中心（centroids），这个不用咱们去训练，已经有公认的了，接着很简单，来了一个新的病人，直接去看和哪个中心比较近就定为哪一类的病人。
简单粗暴但是好用。至于这个距离怎么计算，欧氏距离，pearson，spearman系数均可以。

现在还有些论文在研究RNA-seq和digital multiplexed gene expression technologies计算出来的结果是否一致，发现大部分差不多[3]。

代码

这里直接放上作者的代码吧，还找了挺久的，里面最关键的是pam50_centroids.txt这个文件，记得把自己的基因表达数据scale一下就可以了。

参考文献

Am J Cancer Res. 2015; 5(10): 2929–2943.
Cancer Res Treat. 2019;51(2):737-747
A. C. Picornell et al/BMC Genomics
https://zhuanlan.zhihu.com/p/137070362
J Clin Oncol. 2009 Mar 10; 27(8): 1160–1167.

posted on 2022-03-18 14:37 小小的米粒阅读(1044) 评论(0) 收藏举报

刷新页面返回顶部