转录因子 | transcription factor | 表观因子 | 转录调控专题 | 数据库

 

hs.TFs <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/Homo_sapiens_TF.txt", sep = "\t")
hs.coTFs <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/Homo_sapiens_TF_cofactors.txt", sep = "\t")
hs.TFs <- unique(c(hs.TFs$Symbol, hs.TFs$Symbol))
length(hs.TFs)

hs.epi.reg <- read.csv("https://github.com/leezx/RToolbox/raw/master/data/KAT6A-chromatin-regulators.csv", sep = ",")
hs.epi.reg <- unique(hs.epi.reg$Gene)
hs.epi.reg <- hs.epi.reg[!grepl("NonTargetingControlGuide",hs.epi.reg)]
length(hs.epi.reg)

gplots::venn(list(hs.TFs=hs.TFs, hs.epi.reg=hs.epi.reg))

  

 


 

问题:

  • 在你眼里生物的世界是一个怎样的世界?
  • 什么是调控?细胞里有哪两种主要的调控?
  • 真核生物基因表达调控的六个层次?
  • 这两种调控各自的基本研究手法是什么?
  • 转录因子的严格定义是什么?
  • 各种调控元件有哪些?
  • 生信研究TF必知的知识有哪些?

 

在你眼里生物的世界是一个怎样的世界?

这个模型现在不一定准确,但是随着你的研究和认知不断深入,这个模型会越来越贴近实际。

想象一个受精卵或者合子,就是一个单细胞,就是一粒种子,里面已经包含了高等生命所有必需的信息和功能要素,在适宜的环境下,种子就能生根发芽,遗传和发育成下一代。

发育是一个非常有趣的信息展开过程,单细胞居然有序地展开成了一个四维空间里高度有序的机器,其内部的复杂互作简直是鬼斧天工,你说这是进化出来的,我真不信,我更信普罗米修斯的工程师和2001太空漫游的假说。

打一个比喻:就像一本书和一些基本的工具就自驱性的建立起了一座摩天大楼。

要想干活,就必须不断的读取DNA这本书的信息,按照其指南不断的利用现有的工具来干活,完成任务。

其中最重要的第一步就是把DNA里的信息搞出来,变成mRNA,我们大部分人在分析的转录组数据就是这一层级的一个快照。

虽然下面还有太多的其他调控,但是这个层级已经可以说明太多的信息,可以高效的找出candidate,然后加以实验验证。

 

研究切忌大而空,宁可落脚点非常细,也要刨根问题,把问题说清楚,自己的成果要能扛住所有攻击!!! 

 

什么是调控? 细胞里有哪两种主要的调控?

基因表达调控 - 涉及到核内的DNA信息读取

信号代谢调控 - 不进核的信息调控,主要就是酶

 

真核生物基因表达调控的六个层次

一图胜千言

这里还没有考虑DNA、组蛋白和染色质的三维调控。

 

 

 


 

human和mouse有多少个TF?如何提取数据?

 

其实目前关于转录因子的定义是不全面的,下面那篇cell里面也不是包含了全部,有些TF没有被收录。

另外,目前关于TF的motif的数据库也是不全的,有很多TF是找不到TF的,期待更多的人做实验来填补吧。

 

我目前用的几种方法来找TF:

  • The Human Transcription Factors
  • AnimalTFDB 3.0
  • 从GO数据库里找:Transcription factors were identified using GO terms transcription factor activity (GO:0000989), and regulation of transcription, DNA dependent (GO:0006355).
  • 最终合并三者得到一个完整的TF list

 


 

研究可以做得很浅,查查genecard数据库,从数据库里找找motif,用工具跑跑target gene,构建一下基因调控网络GRN。

研究也可以做得很深,了解一个物种里面有哪些transcription factor families,这些转录因子各自是如何发挥作用的,这些家族是如何归类的,各自有什么特性。

TRANSCRIPTION FACTORS: Structural Families and Principles of DNA Recognition【非常古老的综述1992年,也非常有意思,涉及了TF binding的本质,而不是浮在表面】

Arabidopsis Transcription Factors: Genome-Wide Comparative Analysis Among Eukaryotes

The Human Transcription Factors 【Cell重磅综述:关于人类转录因子,你想知道的都在这

 

转录因子水基金、水paper的套路【我无意之中掌握了这些技能,这里才发现别人都在这么做】:

十分钟设计一个转录因子相关的课题,坐稳了,装个逼给你看

核心思路:通过共表达筛选candidate target genes,多重验证,然后通过promoter的TF motif binding来找到更可信的直接target genes,然后通过实验验证,一篇小项目就完成了。

完整的paper案例看这里:

转录因子(TF)研究思路,这些模式你晓得吧?(上)

 

更细致的调控网路分析:

Plant Physiol. | 高效全面挖掘转录因子调控网络的新策略

 

更深入的机制:

DNA-dependent formation of transcription factor pairs alters their 552 binding specificityNature丨转录因子结合核小体的五种方式(全景图)

总而言之,DNA打包到核小体上,会使转录因子更难接近DNA。而这项研究向我们展示了转录因子在困难面前,通过其他多种形式接近核小体上的DNA,获取基因组中的重要信息,控制细胞活动。这项发现给我们展现了转录因子和核小体相互作用的全景图,帮助我们去理解高等生命中DNA的解码过程,也为之后在生化水平理解转录调控奠定了基础。此外,很多人类疾病如癌症往往和转录因子的异常活性相关,所以这些发现也能帮助我们去更好地理解人类疾病的发生机制 

 

DNA-Binding Specificities of Human Transcription Factors

 

基本概念:

double-helical DNA

  • helix-turn-helix proteins
  • homeodomains
  • zinc finger
  • steroid receptor
  • leucine zipper proteins
  • helix-loop-helix proteins
  • metal-binding DNA-binding proteins
  • β3-sheet DNA-binding proteins

 

 


分子生物学是学了好几遍,但现在只是勉强知道转录因子是结合到启动子序列的蛋白,其他的就什么都不知道。

文章看少了,教材看少了。

 

转录因子

反式作用因子

TATA box

启动子

顺式作用元件:如增强字、沉默子

 

对转录层面的东西了解得太少了。

 

基因表达丰度和基因丰度
基因表达的丰度是指基因转录成mRNA的数量。
基因丰度是指基因组中该基因的拷贝数量。
基因丰度高,即这个基因的数量多,那么可能这个基因的表达量也会多,但是不一定,主要还是要看该基因的启动子强弱。所以基因丰度高不代表表达丰度也高。
基因表达丰度高是指该基因转录成mRNA多,那么表达的蛋白也多,对于表型的影响就大。

 

反式作用因子

顺式作用元件

 

待续~

 

 

参考:

 

posted @ 2017-02-15 19:36  Life·Intelligence  阅读(5336)  评论(0编辑  收藏  举报
TOP