转录因子 | transcription factor | 表观因子 | 转录调控专题 | 数据库
hs.TFs <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/Homo_sapiens_TF.txt", sep = "\t") hs.coTFs <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/Homo_sapiens_TF_cofactors.txt", sep = "\t") hs.TFs <- unique(c(hs.TFs$Symbol, hs.TFs$Symbol)) length(hs.TFs) hs.epi.reg <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/KAT6A-chromatin-regulators.csv", sep = ",") hs.epi.reg <- unique(hs.epi.reg$Gene) hs.epi.reg <- hs.epi.reg[!grepl("NonTargetingControlGuide",hs.epi.reg)] length(hs.epi.reg) gplots::venn(list(hs.TFs=hs.TFs, hs.epi.reg=hs.epi.reg))
问题:
- 在你眼里生物的世界是一个怎样的世界?
- 什么是调控?细胞里有哪两种主要的调控?
- 真核生物基因表达调控的六个层次?
- 这两种调控各自的基本研究手法是什么?
- 转录因子的严格定义是什么?
- 各种调控元件有哪些?
- 生信研究TF必知的知识有哪些?
在你眼里生物的世界是一个怎样的世界?
这个模型现在不一定准确,但是随着你的研究和认知不断深入,这个模型会越来越贴近实际。
想象一个受精卵或者合子,就是一个单细胞,就是一粒种子,里面已经包含了高等生命所有必需的信息和功能要素,在适宜的环境下,种子就能生根发芽,遗传和发育成下一代。
发育是一个非常有趣的信息展开过程,单细胞居然有序地展开成了一个四维空间里高度有序的机器,其内部的复杂互作简直是鬼斧天工,你说这是进化出来的,我真不信,我更信普罗米修斯的工程师和2001太空漫游的假说。
打一个比喻:就像一本书和一些基本的工具就自驱性的建立起了一座摩天大楼。
要想干活,就必须不断的读取DNA这本书的信息,按照其指南不断的利用现有的工具来干活,完成任务。
其中最重要的第一步就是把DNA里的信息搞出来,变成mRNA,我们大部分人在分析的转录组数据就是这一层级的一个快照。
虽然下面还有太多的其他调控,但是这个层级已经可以说明太多的信息,可以高效的找出candidate,然后加以实验验证。
研究切忌大而空,宁可落脚点非常细,也要刨根问题,把问题说清楚,自己的成果要能扛住所有攻击!!!
什么是调控? 细胞里有哪两种主要的调控?
基因表达调控 - 涉及到核内的DNA信息读取
信号代谢调控 - 不进核的信息调控,主要就是酶
真核生物基因表达调控的六个层次
一图胜千言
这里还没有考虑DNA、组蛋白和染色质的三维调控。
human和mouse有多少个TF?如何提取数据?
其实目前关于转录因子的定义是不全面的,下面那篇cell里面也不是包含了全部,有些TF没有被收录。
另外,目前关于TF的motif的数据库也是不全的,有很多TF是找不到TF的,期待更多的人做实验来填补吧。
我目前用的几种方法来找TF:
- The Human Transcription Factors
- AnimalTFDB 3.0
- 从GO数据库里找:Transcription factors were identified using GO terms transcription factor activity (GO:0000989), and regulation of transcription, DNA dependent (GO:0006355).
- 最终合并三者得到一个完整的TF list
研究可以做得很浅,查查genecard数据库,从数据库里找找motif,用工具跑跑target gene,构建一下基因调控网络GRN。
研究也可以做得很深,了解一个物种里面有哪些transcription factor families,这些转录因子各自是如何发挥作用的,这些家族是如何归类的,各自有什么特性。
TRANSCRIPTION FACTORS: Structural Families and Principles of DNA Recognition【非常古老的综述1992年,也非常有意思,涉及了TF binding的本质,而不是浮在表面】
Arabidopsis Transcription Factors: Genome-Wide Comparative Analysis Among Eukaryotes
The Human Transcription Factors 【Cell重磅综述:关于人类转录因子,你想知道的都在这】
转录因子水基金、水paper的套路【我无意之中掌握了这些技能,这里才发现别人都在这么做】:
核心思路:通过共表达筛选candidate target genes,多重验证,然后通过promoter的TF motif binding来找到更可信的直接target genes,然后通过实验验证,一篇小项目就完成了。
完整的paper案例看这里:
更细致的调控网路分析:
Plant Physiol. | 高效全面挖掘转录因子调控网络的新策略
更深入的机制:
DNA-dependent formation of transcription factor pairs alters their 552 binding specificity 【Nature丨转录因子结合核小体的五种方式(全景图)】
总而言之,DNA打包到核小体上,会使转录因子更难接近DNA。而这项研究向我们展示了转录因子在困难面前,通过其他多种形式接近核小体上的DNA,获取基因组中的重要信息,控制细胞活动。这项发现给我们展现了转录因子和核小体相互作用的全景图,帮助我们去理解高等生命中DNA的解码过程,也为之后在生化水平理解转录调控奠定了基础。此外,很多人类疾病如癌症往往和转录因子的异常活性相关,所以这些发现也能帮助我们去更好地理解人类疾病的发生机制
DNA-Binding Specificities of Human Transcription Factors
基本概念:
double-helical DNA
- helix-turn-helix proteins
- homeodomains
- zinc finger
- steroid receptor
- leucine zipper proteins
- helix-loop-helix proteins
- metal-binding DNA-binding proteins
- β3-sheet DNA-binding proteins
分子生物学是学了好几遍,但现在只是勉强知道转录因子是结合到启动子序列的蛋白,其他的就什么都不知道。
文章看少了,教材看少了。
转录因子
反式作用因子
TATA box
启动子
顺式作用元件:如增强字、沉默子
对转录层面的东西了解得太少了。
基因表达丰度和基因丰度
基因表达的丰度是指基因转录成mRNA的数量。
基因丰度是指基因组中该基因的拷贝数量。
基因丰度高,即这个基因的数量多,那么可能这个基因的表达量也会多,但是不一定,主要还是要看该基因的启动子强弱。所以基因丰度高不代表表达丰度也高。
基因表达丰度高是指该基因转录成mRNA多,那么表达的蛋白也多,对于表型的影响就大。
反式作用因子
顺式作用元件
待续~
参考: