(史上最全)SNP位点与转录因子结合特异性数据库:GVATdb

众所周知,全基因组关联分析(GWAS)发现的很多变异位点基本为非编码,这些变异位点1)要么调控基因表达(eQTL); 2)要么影响增强子活性; 3)要么影响转录因子(TF)结合特异性; 4)要么啥也不是

针对以上四种情况:

1)是否调控基因表达(eQTL)可通过GTExhttps://gtexportal.org/home/)查询。

2)是否影响增强子活性可通过之前的推文查询:感兴趣的SNP/区域上是否有增强子/转录因子?增强子/转录因子调控哪个靶基因?(EnhancerDB)

3)是否影响转录因子(TF)结合特异性则可通过今天介绍的数据库进行查询:GVATdbhttp://renlab.sdsc.edu/GVATdb/search.html)

上周Nature发了一篇文献Systematic analysis of binding of transcription factors to noncoding variants

该文献针对95,886个常见变异位点(SNPs,欧洲和亚洲人群的MAF> 1%)与270个转录因子的结合特异性进行了大量的SNP-SELEX实验,并以此构建了GVATdb数据库。

下图是针对转录因子或者SNP位点进行检索的实验结果图:

每列的释义如下:

oligo_auc:转录因子与40bp DNA 序列的结合得分, 用AUC(Area under Curve)值表示;

oligo_pval:对OBS进行25,000次蒙特卡洛随机化后得到的p值。p<0.05表示TF与基因组片段的特异性“结合”;

Alt:SNP(hg19)的替代等位基因;

Ref:SNP(hg19)的参考等位基因;

ref_auc:ref 与 TF 的结合得分;

alt_auc:alt 与 TF 的结合得分;

pbs:结合倾向性得分,公式为:Ref 等位基因得分减去 Alt 等位基因得分,负值表示转录因子更倾向于结合 Alt 等位基因;

p-value:对 PBS 进行25,000次蒙特卡洛随机化后得到的 p 值。 p<0.01 表示 TF 与 Ref 等位基因和 Alt 等位基因结合“存在差异”。

此外,对于没有纳入 SNP-SELEX 实验的 SNP 位点,作者还建立了 deltaSVM 模型,用于预测未纳入的 SNP 位点与 TF 的结合特异性,如下图所示:

参考文献:Yan J, Qiu Y, Dos Santos A M R, et al. Systematic analysis of binding of transcription factors to noncoding variants[J]. Nature, 2021: 1-5.


由于这个网站相当简单易懂,本次推文就不多介绍啦,祝各位周末愉快~


posted @ 2021-02-05 20:53  橙子牛奶糖  阅读(1271)  评论(0编辑  收藏  举报