化学键|甘氨酸|谷氨酸|半胱胺酸|motif|domain|疏水相互作用|序列相似性|clustering analysis|Chou and Fasman|GOR|PHD|穿线法|first-principle ab initio folding|
生命组学
对Protein的分析可以从Sequence到structure到function,最后研究interaction。
Structure:
化学键形成骨架,化学元素的选取基于合成蛋白质选择容易获取的元素,氨基酸化学元素的选取决定了其结构,其结构又决定了function。氨基酸的组织结构可以解释其function:甘氨酸最小,所以可以放到不同位置;谷氨酸顺反式都有,所以便于结构调整;半胱胺酸因有二硫键而连接紧密。
蛋白质有four levels:一级结构由共价键连接,sequence与结构一一对应。二级结构由氢键连接,基本单位motif与不同环境组合具有不同功能,即功能暗示。三级结构由疏水相互作用控制,基本单位是domain(motif与domain区别在于:motif蛋白质暗示是依据周围氨基酸暗示不同功能,而domain具有独立性)。四级结构是复合结构。除此之外,相互作用力还有离子键和范德华力。
研究protein结构是为了更好研究、制药。Protein Prediction的主要思路是预测亚模块然后预测总体,这其中要联系亚模块之间的相互结构和角度。原始方法采用X-ray,物理上很难实现,所以采用信息学方法省时省力。信息学方法主要是利用类似PDB的Database。所以,信息学方法也可以作为X-ray未能及部分的补充。
二维结构预测:二维结构比三维结构难,这是因为motif 蛋白质暗示依据周围氨基酸暗示不同功能而domain具有独立性。预测方法有以下三种思路:1.因为sequence 相似导致structure相似。所以可以在数据库中寻找相似sequence后copy其结构,但是寻找sequence相似的难度较大。2.clustering analysis:采用机器学习方法,利用已知sequence与结构相对应的数据集作为training集学习,从而预测未知sequence对应结构。3.Chou and Fasman利用氨基酸对应二级结构(二级结构包括螺旋、折叠和转角)中存在概率来预测,但是存在motif问题,即不知道周围环境情况所以无法正确预测,所以采用GOR method。GOR method即以每一个氨基酸将周围17个氨基酸为一组实行数据学习。但是相同序列存在空间结构不同的问题,所以采用PHD方法,即原始数据比较得到profile,再neural network一遍又一遍training,最后用数字置信度判别结果,之后诞生相似原理的Psi-BLAST和PSIPRED,其中PSIPRED准确性最好。
三级结构预测:1.因为三级结构结构比序列更保守,所以可以采用sequence-structure相似性。2.穿线法:先预测sub-structure(二级结构)后assembly,但sub之间位置结构不确定。此情况下可以列出sub的全部组合,基于结合自由能公式建立打分函数进行choose,最后使预测结构与已知结构的误差值评价其精确率3.从头预测方法是first-principle ab initio folding基于energy function找global minimum,在能量最低时停止。原先以原子为基本单位,所以时间长也不精确,之后使用AA为基本单位。此方法适合100个AA或者重要AA。最后,综合使用三类思路,最后预测结果判别时应注意:序列相似性的前提是不同序列长度,长序列比短序列保守,短序列容易出错,需要使用合适模板结构,实际上大部分采用25%-40%的相似度。