变异的功能 | variants function | coding | non-coding
variant主要分为两类:
- coding
- noncoding
这两大类的分析方法截然不同,coding主要直接影响了mRNA和蛋白;而noncoding,主要是影响调控。
coding编码区如何分析?
通常有很多pipeline来预测WGS等得到的SNP的功能,如annovar等数据库。
protein binding domain
综述:
Mapping genetic variations to three-dimensional protein structures to enhance variant interpretation: a proposed framework - 2017年的,有点老,但是很全面,总结很系统。
还有更进一步的预测mutation对蛋白的核心binding site影响的工具,如下:
工具1:结果直接可用,输入输出都很明确
Predicting the functional impact of protein mutations: application to cancer genomics
http://mutationassessor.org/r3/
工具2:
https://zhanglab.ccmb.med.umich.edu/BindProf/
工具3:
Can Predicted Protein 3D Structures Provide Reliable Insights into whether Missense Variants Are Disease Associated?
工具4:
SDM: a server for predicting effects of mutations on protein stability
工具5:
Functional characterization of 3D protein structures informed by human genetic diversity
工具6:
VarMap: a web tool for mapping genomic coordinates to protein sequence and structure and retrieving protein structural annotations
资料:
Variant effects on protein structure | EMBL-EBI Train online
Predicting the effect of variation on protein structure and function
Genetic variants on protein structures: our collaboration with the PDBe
HuVarBase: A human variant database with comprehensive information at gene and protein levels
Impact of genetic variation on three dimensional structure and function of proteins
Efects of short indels on protein structure and function in human genomes
RNA splicing
Splicing mutations in human genetic disorders: examples, detection, and confirmation
non coding非编码区如何分析?
影响motif,从而影响转录因子结合
最好要有ChIP-seq和ATAC-seq的数据
lncRNA
variant和gene expression是生物信息中两个非常重要的核心站点(根据中心法则,还有表观、3D genome、isoform、蛋白),这也是两个最能被准确测量的维度,在Post-GWAS,它们两的关系是我们研究的重点。
先看看文献(搜 coding variant and gene expression ):
The Post-GWAS Era: From Association to Function
Modified penetrance of coding variants by cis-regulatory variation contributes to disease risk
The influence of genetic variation on gene expression
The impact of rare variation on gene expression across tissues
这篇可以重点看,2014年的,才发现自己现在做的别人早就做过类似的了。
Analysis of Stop-Gain and Frameshift Variants in Human Innate Immunity Genes
如何给coding mutation打分,评估其对疾病以及severity的影响。
如何找到众多基因中的core gene set?
小心假设,大胆求证。
这和经典名言恰好相反,因为我觉得这世界可以的假设太多了,似乎都可以,但其实大部分的都是错误的。
小心假设,意味着我们只基于最可靠的事实来作出假设,基于不可靠事实的假设是无意义的,也就不存在任何求证的方法。
大胆求证,就是收集各种数据,全方位的来论证,数据会有偏,但数据不会说谎。
这些coding mutations是非常靠谱的,我们的pre-ENCC的DEG也是比较靠谱的,我们的大厦的根基就是这两个站点。
有了这两个站点,如何把它们联系到一起呢? 这中间的可能性有无数种。
coding mutation各式各样,在network中的地位和重要性也不一样,对基因表达的影响也不一样,想用单一的规则把variant和gene expression联系到一起似乎是不可能的。
eQTL是最直接的研究variant与基因表达的途径,但eQTL并不会收录所有的variant。
variant最直接作用于coding gene的方法就是影响基因互作,如果蛋白的核心domain发生了变化, 那蛋白之间的互作是必然会受到影响的。
预测noncoding variant与基因表达的工具已经很多了,且在eQTL数据上面的表现已经不错了。
CshlSiepelLab/FitCons2
FIRE: functional inference of genetic variants that regulate gene expression
马上深入探索~