氨基酸分子结构和原子命名
技术背景
在前面的一篇文章中,我们讲述了蛋白质的组成结构,一共是20种氨基酸。由这20种氨基酸的排列组合,可以得到一条相应的蛋白质链,而这条蛋白质链经过各种螺旋和折叠,会得到一个最终稳定的蛋白质构象,也是我们日常生活中所能够接触到的蛋白质的存在形态。那么在上一篇文章中的表格里面,我们可以看到众多的氨基酸在蛋白质链的中间时候的构象,本文将要讲述一些其他位置所对应的构象,以及其中原子的命名法则。
同残基不同位置的构象
即使是同一个残基,在位于蛋白质链的不同位置时,也有可能表现出不同的构象。比如在蛋白质的头部时,有可能会出现一些氢离子跟氮原子的成键。而残基位于蛋白质链的中部时,我们往往会略去其中的一个\(H_2O\),跟两侧的其他残基形成2个肽键。具体结构如下表所示:
英文名 | 中文名 | 三字母缩写 | 单字母缩写 | 三维结构图 | N起始点结构图 | C终点结构图 |
---|---|---|---|---|---|---|
Alanine | 丙氨酸 | Ala | A | |||
Arginine | 精氨酸 | Arg | R | |||
Asparagine | 天冬酰胺 | Asn | N | |||
Asparticacid | 天冬氨酸 | Asp | D | |||
Cysteine | 半胱氨酸 | Cys | C | |||
Glutamine | 谷氨酰胺 | Gln | Q | |||
Glutamicacid | 谷氨酸 | Glu | E | |||
Glycine | 甘氨酸 | Gly | G | |||
Histidine | 组氨酸 | His | H | |||
Isoleucine | 异亮氨酸 | Ile | I | |||
Leucine | 亮氨酸 | Leu | L | |||
Lysine | 赖氨酸 | Lys | K | |||
Methionine | 甲硫氨酸(蛋氨酸) | Met | M | |||
Phenylalanine | 苯丙氨酸 | Phe | F | |||
Proline | 脯氨酸 | Pro | P | |||
Serine | 丝氨酸 | Ser | S | |||
Threonine | 苏氨酸 | Thr | T | |||
Tryptophan | 色氨酸 | Trp | W | |||
Tyrosine | 酪氨酸 | Tyr | Y | |||
Valine | 缬氨酸 | Val | V |
原子命名法则
当我们把这些生成的构象存储成PDB文件时,我们会发现其中每一个原子在所处的残基内的命名都是唯一的。我们以丙氨酸为例,来解读一下其中的命名法则。
在上面这个结构图中,绿色的代表碳原子,灰色代表氢原子,红色代表氧原子,蓝色代表氮原子。一般我们先找到当前氨基酸的氮基碳原子,由于丙氨酸中只有一个氮原子,因此与氮原子成键的这个碳原子就是我们要找的氮基碳原子,我们将其命名为"CA",对应的氮原子命名为"N"。一般我们会发现,这个氮基碳原子并不是位于主链的顶点,也就是在氨基酸内部还会连接至少2个其他的重原子。我们找到其连接的带氧原子的那个碳原子,将其命名为"C",对应的氧原子命名为"O","CA"表示的是这个碳原子处于\(\alpha\)位。另外一个被氮基碳原子所连接的碳原子,被命名为"CB",也就是\(\beta\)位的碳。按照与氮基碳原子的远近关系,分别用"A,B,G,D,E,Z,H"来标记这些重原子,对应的希腊字母是"\(\alpha,\beta,\gamma,\delta,\epsilon,\zeta,\eta\)"。那么这就是丙氨酸的所有重原子在PDB文件中的命名,如下图是一个含有丙氨酸的蛋白质的PDB文件。
对于氢原子来说,命名是取决于其所连接的碳原子的位置,比如连接氮的氢原子,可以直接命名为"H",连接\(\alpha\)碳的氢原子,可以命名为"HA"。而\(\beta\)位的碳连接了3个氢原子,因此需要加上额外的数字标记,那么对应的命名就是"HB1,HB2,HB3"。并且,这种加数字编号的方法对于重原子也是同样适用的,比如下图所示的色氨酸:
同样的方法我们可以找到氮基碳原子和\(\alpha\)位的氧基碳原子,这样我们就可以按照连接的远近关系对其中的重原子进行命名。比如我们可以\(\beta\)位有1个碳,\(\gamma\)位也是1个碳,\(\delta\)位是2个碳,\(\epsilon\)位有1个氮原子和2个碳原子,\(\zeta\)位有2个碳原子,\(\eta\)位有1个碳原子。那么综合下来,我们将会得到的重原子的命名就是:"C,N,O,CA,CB,CG,CD1,CD2,NE1,CE2,CE3,CZ2,CZ3,CH2",下图是一个真实蛋白质PDB文件中的色氨酸的命名:
总结概要
PDB格式的文件是最常用于存储蛋白质构象的一种,其中也是以各个氨基酸(残基)为基本单位,在氨基酸内部对原子进行唯一性的命名。本文先通过展示各种氨基酸在蛋白质链的不同位置的结构,介绍各类氨基酸的基础构象。再通过丙氨酸和色氨酸两个案例,详细介绍了在蛋白质链的中的各种氨基酸内部的原子命名法则。需要注意的是,atom_name和atom_type是不一样的,atom_name是一个唯一的标识符,atom_type则是用于导出力场参数的重要标记。
版权声明
本文首发链接为:https://www.cnblogs.com/dechinphy/p/cnaminos.html
作者ID:DechinPhy
更多原著文章请参考:https://www.cnblogs.com/dechinphy/
打赏专用链接:https://www.cnblogs.com/dechinphy/gallery/image/379634.html
腾讯云专栏同步:https://cloud.tencent.com/developer/column/91958
CSDN同步链接:https://blog.csdn.net/baidu_37157624?spm=1008.2028.3001.5343
51CTO同步链接:https://blog.51cto.com/u_15561675