DNA motif数据库 | DBcorrDB | 2022 SCENIC+ motif collection
2023年08月28日
从我第一次接触motif分析开始,就意识到motif数据库的不完善,那么多的已知的TF,有较为明确motif的却不到一半,已知的部分质量也不高。
而motif其实至关重要,它是Protein与DNA互作的pattern和证据,蛋白与DNA的互作也决定了基因的转录,染色质的表观调控,也是疾病机制的核心环节,那我们怎么能容忍motif的不完美呢?如果连它都不可靠,那我又怎么愿意去相信我predict出来的结果呢?
但是,一款数据库横空出世:
收录了主流数据库的motif,做了非常详细的注释,算是目前最为全面丰富详细的motif数据库了。
目前我们有这么丰富的表观数据,里面包含了丰富的motif调控规律,所以是完全可以拿来做motif QC的,单细胞的数据更是可以拿motif来大做文章。
有了高质量的motif,一些无偏的genome wide的分析就变为可行了,比如可以用来预测eGRN。
一个核心的矛盾就是有motif的TF只占我们知道TF的一半不到,那自然在做分析的时候,很多motif就被忽略了,我在想能不能构建一个de novo的DNA motif数据库,在分析数据时我们还能有另外一个选项。
必看综述:An algorithmic perspective of de novo cis-regulatory motif finding based on ChIP-seq data - Qin Ma
DNA motif databases and their uses
目前的金标准数据库:
- TRANSFAC
- JASPAR【CORE collection】
- HOCOMOCO
- CIS-BP
- DBcorrDB 【我用的罕见的EZH2和HDAC就是这里下载的】
TFBS鉴定工具:
- MEME
- HOMER
TFBS数据库:
- TFBSshape
- RSAT
- MEME
- i-cisTarget
这篇综述对motif有关的分析总结得比较到位:Integrating Peak Colocalization and Motif Enrichment Analysis for the Discovery of Genome-Wide Regulatory Modules and Transcription Factor Recruitment Rules
- Peak Colocalization【两个peak非常接近,且有不同的TF motif binding】
- Motif Enrichment Analysis 【分三种层面的motif分析:全局、局部、具体到单peak】
能不能找到对应TF的DNA-binding domains (DBDs),针对性的设计gRNA或者药物。important mutations in DBD in cancer.
TF binding sites (TFBSs),Genome-wide identification of TFBSs,the peaks appear in at least two independent datasets
classify TFs into structural families
position frequency matrices (PFMs)
position weigth matrices (PWMs)
MCB 182 Lecture 7.6 - Position weight matrices, sequence logos
in vitro assays
- SELEX
- protein binding microarrays
- ChIP-based experiments
orthogonal supporting evidence【词汇很拗口,其实就是已被重复严重过的数据】
HT-SELEX, Using HT-SELEX to infer TF binding models: comparison to PBM and an... - Yaron Orenstein - ISMB 2014
PBMs,
ChIP-seq and DAP-seq experiments
data sourced from CistromeDB, ReMap, GTRD, ChIP-atlas and ModERN
the TF DBD class and family (following the TFClass classification (2)),
the TF UniProt ID (37), and
links to the TFBSshape (24,25),
ReMap (32,33) and
UniBind (38) databases
non-redundant PFMs
novel transcription factor flexible models (TFFMs)
hierarchical clustering of TF-binding profiles
代码细节:
JASPAR 2020: update of the open-access database of transcription factor binding profiles
An algorithmic perspective of de novo cis-regulatory motif finding based on ChIP-seq data - NAR
Cancer Cell Line Encyclopedia (CCLE)