计算基因组学工具解析肿瘤与免疫细胞的互作--转载
Hackl, H., Charoentong, P., Finotello, F., & Trajanoski, Z. (2016). Computational genomics tools for dissecting tumour-immune cell interactions. Nature Reviews Genetics, 17(8), 441.
摘要:
癌症免疫疗法方面的突破和高通量技术成本的降低,引发了使用基因组工具对肿瘤免疫细胞相互作用的深入研究。 数据的丰富性和复杂性带来了相当大的挑战,需要计算工具来处理、分析和实现可视化。 近年来,研究人员已经开发各种用于挖掘肿瘤免疫和基因组数据的工具并提供新颖的机制解读。本文我们将综述用于癌症免疫研究的各类计算基因组学工具,并提供有关要求和功能的信息。
关键词:
正文:
癌症免疫疗法基于诱导或增强对癌症的免疫应答的药剂。 目前,除了靶向癌细胞的单克隆抗体外,单一疗法还基于三种策略:使用检查点阻断剂,接种新抗原和过继性T细胞转移。 另外,免疫单一疗法的组合以及免疫疗法和靶向疗法的组合也正在研究中。
癌症免疫疗法有可能适应肿瘤的变化,因为免疫系统能促进特定的T细胞的产生,识别肿瘤表面发生改变的抗原从而杀死肿瘤细胞。然而,肿瘤细胞可以通过上调免疫细胞表面的免疫检查点分子,如细胞毒性T淋巴细胞相关蛋白4(CTLA4)或程序性细胞死亡分子1(PD1)来逃避免疫系统的检测。最近,已经引入了几种阻断免疫检查点并由此增强抗肿瘤T细胞应答的抗体,并显示出显著的临床效果。接受CTLA4靶向抗体治疗的黑色素瘤患者,3年后存活曲线达到平台期,表明这种方法持久的益处甚至治愈潜力。此外,PD1靶向抗体的功效不仅在黑色素瘤中显示,而且在九种不同的肿瘤类型中也显示出来,如非小细胞肺癌,肝癌,肾癌和淋巴癌7。我们目前正在目睹检查点阻滞剂的快速发展,从150多项临床试验中可以看出,它们被用在单一疗法或联合治疗中7。然而,只有一小部分患者对检查点阻滞剂的单一疗法有反应,因此确定精确的作用模式和预测标志物是需要深入研究的主题。
继第一批癌症免疫疗法 - 即单克隆抗体的使用,以及检查点阻断剂免疫疗法的开发,和其他免疫治疗策略,包括治疗性疫苗和工程化T细胞,使得肿瘤 - 免疫细胞相互作用成为焦点。解析这些复杂的相互作用,有望鉴定预测性生物标志物,发展新药或新的治疗手段,并且促进机制研究。然而,由于这两种多细胞生态系统的演变和异质性,使得肿瘤-免疫细胞相互作用的研究具有相当大的挑战:癌症的发展,可以看作是一种进化过程;免疫系统,包含许多先天和适应性免疫细胞亚群,其中一些表现出表型可塑性并具有记忆。NGS技术和其他中高通量技术正在产生大量数据,需要信息系统来处理和分析数据,提取信息以开发机制理论并支持临床决策。因此,癌症免疫基因组学也可以被视为信息科学,并将为新型免疫治疗策略的开发和成功应用铺平道路。
在本综述中,我们首先简要介绍肿瘤-免疫细胞的相互作用,然后讨论用于挖掘癌症基因组数据和提取免疫参数的计算基因组学工具。 我们专注于对NGS数据的更高级别分析,包括肿瘤浸润淋巴细胞(TILs)的定量,肿瘤抗原的鉴定和T细胞受体(TCRs)的分析,并提供有关需求和功能的信息以帮助选择工具和分析管道的组装。 虽然这里的重点是癌症免疫学,但所讨论的计算方法也为研究其他疾病提供了手段,如自身免疫,炎症,感染或移植物抗宿主疾病。
肿瘤-免疫细胞互作
癌症免疫循环包括几个连续步骤:癌细胞产生的新抗原在癌细胞死亡后释放并被树突细胞捕获。 接下来,树突细胞将主要组织相容性复合物(MHC)分子上捕获的抗原呈递给T细胞,导致针对癌症特异性抗原的效应T细胞应答的引发和活化。 在趋化因子梯度的指导下,活化的T细胞进入并渗入肿瘤部位。 T细胞通过T细胞受体(TCR)和新抗原-MHC复合物之间的相互作用特异性识别并结合癌细胞并杀死癌细胞(细胞溶解活性)。 各种分子和基因组学工具可用于评估这些癌症免疫细胞相互作用的每个阶段及其刺激或抑制因子。
组学数据分析概述
NGS技术在基因组,转录组或表观基因组分析中的应用是肿瘤免疫基因组学数据的主要来源。此外,最近在图像技术和相关软件工具以及细胞表型分析技术方面取得了进展,可以生成与基因组类型相辅相成的数据类型。对于肿瘤免疫基因组学中大多数问题,可以应用与癌症基因组学中相同的NGS技术,它们包括全外显子组测序(WES),全基因组测序(WGS),RNA-seq,用于DNA甲基化分析的亚硫酸氢盐测序和单细胞测序。 然而,对于特定应用,例如TCR测序,需要仔细考虑读取长度,测序数据(WES,WGS或RNA-seq)的深度和类型。
在癌症免疫学的背景下对组学数据的分析可以被视为两步程序(图2)。在对原始数据进行预处理之后,第一步是组学数据分析,主要关注肿瘤本身。该步骤包括用于鉴定SNP,小的插入和缺失,拷贝数变异(CNV),结构变异,基因融合以及变体注释的工具。基因组分析组中的另一组工具用于分析使用RNA-seq评估的基因的表达,从WES和/或SNP阵列数据估计肿瘤异质性或分析DNA甲基化模式。第二类分析使用免疫基因工具,更关注肿瘤-免疫细胞相互作用。作为输入数据,它们使用基因组分析和/或原始测序数据的输出。这些免疫基因组学分析的结果提供了有关肿瘤微环境的两个关键特征的信息:浸润的免疫细胞的组成和功能定向以及肿瘤抗原的来源和数量。
使用基因组数据确定肿瘤浸润的细胞组成
由于不同类型的TIL对肿瘤进展有不同的影响,确定肿瘤中免疫浸润的细胞组成不仅提供了预后信息,而且还可以促进标志物预测和新治疗策略的发展。成像和细胞表型技术被广泛使用,可以提供有关免疫结构的部分信息,但细胞表型分析技术的固有局限性阻碍了大量TIL亚群的特征化。因此,研究人员开发了计算基因组工具以提供TIL的全面图像。应用于此目的的计算基因组学工具可以分组为基因集富集分析(GSEA)和去卷积方法(图3a)。值得注意的是,GSEA和反卷积方法都依赖于个体细胞群的表达谱矩阵。用这些方法重建的TIL亚群包括在表达谱的参考矩阵中定义的免疫亚群。
富集方法依赖于基因集分析技术,基于样本之间的比较或单样本方法。 GSEA评估排序基因列表,用于统计富集参与某种途径和细胞过程的基因。在比较方法中,基于两种生物状态之间的差异表达对基因进行排序。或者,可以使用单样本GSEA(ssGSEA)富集评分,表示特定基因组中的哪些基因在单个样品中上调或下调了。 GSEA可用于解释从微阵列或RNA-seq获得的基因表达数据。
GSEA的优势在于它可以使用现有工具轻松应用,与传统的基因表达分析相比,没有额外的样本量要求。GSEA的必要要求是与特定免疫亚群相关的基因标记的组装(图3b)。在一项开创性研究中,从免疫和非免疫细胞的全血微阵列表达数据中定义了一组免疫特征基因34。最近,来自人免疫学项目的免疫学特征的基因集合(ImmuneSigDB)35被收录到分子特征数据库(MSigDB)36中。通过分析389项关于小鼠和人体免疫系统中细胞状态和扰动的已发表研究,产生了约5,000个注释良好的基因的补充35。
解卷积方法使用表达特征矩阵从来自细胞混合物的表达数据推断特定细胞比例(图3c)。基于该算法,开发了一种使用二次规划进行异质组织去卷积的R包.37。这个名为DeconRNASeq的软件包可以处理RNA-seq数据,但它仅在少数细胞类型的混合物上得到验证。已经开发了几种其他方法,其使用各种技术来解决病态反问题(表1)。最近,一种用于从大块肿瘤的微阵列数据推断白细胞亚型的计算方法(称为CIBERSORT)被引入38。 CIBERSORT使用22个白细胞亚群的信号表达矩阵并实现线性支持向量回归38。尽管计算方法有各种成功的应用,但仍有几个问题需要改进30。首先,需要具有基因表达谱的参考矩阵,所述基因表达谱来自血液样品或优选来自使用RNA-seq的肿瘤样品的分选的免疫细胞亚群。其次,由于解卷积对噪声敏感,因此必须开发和实现鲁棒算法。第三,需要使用独立方法验证方法,例如荧光激活细胞分选(FACS)或免疫组织化学。
与基于基因表达谱的去卷积方法一样,细胞谱系特异性DNA甲基化模式可用于检测和量化白细胞亚群39。为此目的,使用微阵列平台(即,Illumina Infinium 27k和450k DNA甲基化阵列),使用来自少数甲基化CpG基因座的信息到全基因组基因座开发了许多方法和工具39-41。将这种方法应用于亚硫酸氢盐测序技术的数据非常简单。从表观基因组关联研究中可以明显看出,表观基因组在不同细胞类型中的变异很大42。
肿瘤抗原的鉴定
T细胞能够识别与肿瘤细胞的MHC分子结合的肿瘤特异性抗原而排斥肿瘤。具有高肿瘤特异性的抗原 - 即由肿瘤细胞展示而不是由正常细胞展示 - 具有引发肿瘤特异性免疫应答的潜力,从而将不良副作用的风险降至最低,因此对于诸如工程化T细胞和治疗性疫苗的癌症免疫疗法具有重要意义。
三类抗原具有高肿瘤特异性:首先是病毒抗原,其源自在病毒感染的肿瘤细胞中表达的病毒基因;第二种是癌症种系抗原(CGAs),是通常仅由滋养细胞和种系细胞表达但在肿瘤细胞中具有异常表达的蛋白质;第三种是新抗原,它们是由体细胞突变基因的表达产生的肽链。自从发现第一个CGA,黑色素瘤抗原1(MAGE1;也称为MAGEA1)被鉴定以来,已经在几种肿瘤类型中鉴定到表达的大量癌症种系基因。迄今为止,Cancer-Testis数据库包含了有关CGA,和其在肿瘤和正常组织中的表达以及诱导的免疫应答的信息。利用可用的CGA列表,可直接在肿瘤和正常样品的RNA-seq数据中提取它们的表达水平。
新抗原可被认为具有严格的肿瘤特异性,因为它们源于恶性细胞中的突变基因的表达,但不存在于正常基因组中。为了引发免疫应答,必须将突变的蛋白质蛋白水解加工成短肽,然后与MHC分子结合,以呈递给T细胞(图4)。当从匹配的肿瘤和正常样品中获得NGS数据时,可以通过整合三个计算任务来计算新抗原(图4):从匹配的肿瘤-正常样品中鉴定突变蛋白,然后进行HLA分型和然后预测新抗原-MHC的结合亲和力。
组装分析管道
在组装癌症免疫基因组学的计算流程时,必须特别注意评估数据是否允许提取无偏见和有意义的信息。例如,阅读长度和覆盖深度对来自测序数据的免疫库和HLA等位基因的分析具有强烈影响。此外,还必须考虑用于生成数据的测序平台,以确定所选工具是否能够区分平台特异性测序错误与真实变体。另一个需要考虑的问题是批次效应,它是由不同实验条件引起的变异的技术来源。 可以使用降维工具(例如主成分分析)识别这些假象,并随后使用替代变量分析进行校正。
直到最近,才报道了整合多个分析步骤的新抗原预测的计算解决方案(表1)。除NetTepi90外,目前还有其他解决方案,例如:NetCTLpan110,这是一种用于预测蛋白质分裂,TAP转运和pMHC结合的泛特异性方法; EpiToolkit111,是一个基于Web的平台,用于灵活整合预先选择的计算模块,用于表位预测和优先级排序; FRED 2(REF.112),它是HLA分型,表位预测和选择的网络资源,也允许定制管道的原型设计;和pVAC-Seq113,它是一种新的抗原鉴定管道,可以考虑突变覆盖率,变异等位基因频率和突变基因的表达。随着云计算解决方案可用性的增加,我们预计在不久的将来,将开发利用这种计算基础设施的癌症免疫基因组学分析管道。
作者:酷睿_1991
链接:https://www.jianshu.com/p/04428f4f0c30
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。