氨基酸分子结构和原子命名

技术背景

在前面的一篇文章中，我们讲述了蛋白质的组成结构，一共是20种氨基酸。由这20种氨基酸的排列组合，可以得到一条相应的蛋白质链，而这条蛋白质链经过各种螺旋和折叠，会得到一个最终稳定的蛋白质构象，也是我们日常生活中所能够接触到的蛋白质的存在形态。那么在上一篇文章中的表格里面，我们可以看到众多的氨基酸在蛋白质链的中间时候的构象，本文将要讲述一些其他位置所对应的构象，以及其中原子的命名法则。

同残基不同位置的构象

即使是同一个残基，在位于蛋白质链的不同位置时，也有可能表现出不同的构象。比如在蛋白质的头部时，有可能会出现一些氢离子跟氮原子的成键。而残基位于蛋白质链的中部时，我们往往会略去其中的一个\(H_2O\)，跟两侧的其他残基形成2个肽键。具体结构如下表所示：

英文名	中文名	三字母缩写	单字母缩写
Alanine	丙氨酸	Ala	A
Arginine	精氨酸	Arg	R
Asparagine	天冬酰胺	Asn	N
Asparticacid	天冬氨酸	Asp	D
Cysteine	半胱氨酸	Cys	C
Glutamine	谷氨酰胺	Gln	Q
Glutamicacid	谷氨酸	Glu	E
Glycine	甘氨酸	Gly	G
Histidine	组氨酸	His	H
Isoleucine	异亮氨酸	Ile	I
Leucine	亮氨酸	Leu	L
Lysine	赖氨酸	Lys	K
Methionine	甲硫氨酸（蛋氨酸）	Met	M
Phenylalanine	苯丙氨酸	Phe	F
Proline	脯氨酸	Pro	P
Serine	丝氨酸	Ser	S
Threonine	苏氨酸	Thr	T
Tryptophan	色氨酸	Trp	W
Tyrosine	酪氨酸	Tyr	Y
Valine	缬氨酸	Val	V

原子命名法则

当我们把这些生成的构象存储成PDB文件时，我们会发现其中每一个原子在所处的残基内的命名都是唯一的。我们以丙氨酸为例，来解读一下其中的命名法则。

在上面这个结构图中，绿色的代表碳原子，灰色代表氢原子，红色代表氧原子，蓝色代表氮原子。一般我们先找到当前氨基酸的氮基碳原子，由于丙氨酸中只有一个氮原子，因此与氮原子成键的这个碳原子就是我们要找的氮基碳原子，我们将其命名为"CA"，对应的氮原子命名为"N"。一般我们会发现，这个氮基碳原子并不是位于主链的顶点，也就是在氨基酸内部还会连接至少2个其他的重原子。我们找到其连接的带氧原子的那个碳原子，将其命名为"C"，对应的氧原子命名为"O"，"CA"表示的是这个碳原子处于\(\alpha\)位。另外一个被氮基碳原子所连接的碳原子，被命名为"CB"，也就是\(\beta\)位的碳。按照与氮基碳原子的远近关系，分别用"A,B,G,D,E,Z,H"来标记这些重原子，对应的希腊字母是"\(\alpha,\beta,\gamma,\delta,\epsilon,\zeta,\eta\)"。那么这就是丙氨酸的所有重原子在PDB文件中的命名，如下图是一个含有丙氨酸的蛋白质的PDB文件。

对于氢原子来说，命名是取决于其所连接的碳原子的位置，比如连接氮的氢原子，可以直接命名为"H"，连接\(\alpha\)碳的氢原子，可以命名为"HA"。而\(\beta\)位的碳连接了3个氢原子，因此需要加上额外的数字标记，那么对应的命名就是"HB1,HB2,HB3"。并且，这种加数字编号的方法对于重原子也是同样适用的，比如下图所示的色氨酸：

同样的方法我们可以找到氮基碳原子和\(\alpha\)位的氧基碳原子，这样我们就可以按照连接的远近关系对其中的重原子进行命名。比如我们可以\(\beta\)位有1个碳，\(\gamma\)位也是1个碳，\(\delta\)位是2个碳，\(\epsilon\)位有1个氮原子和2个碳原子，\(\zeta\)位有2个碳原子，\(\eta\)位有1个碳原子。那么综合下来，我们将会得到的重原子的命名就是："C,N,O,CA,CB,CG,CD1,CD2,NE1,CE2,CE3,CZ2,CZ3,CH2"，下图是一个真实蛋白质PDB文件中的色氨酸的命名：

总结概要

PDB格式的文件是最常用于存储蛋白质构象的一种，其中也是以各个氨基酸(残基)为基本单位，在氨基酸内部对原子进行唯一性的命名。本文先通过展示各种氨基酸在蛋白质链的不同位置的结构，介绍各类氨基酸的基础构象。再通过丙氨酸和色氨酸两个案例，详细介绍了在蛋白质链的中的各种氨基酸内部的原子命名法则。需要注意的是，atom_name和atom_type是不一样的，atom_name是一个唯一的标识符，atom_type则是用于导出力场参数的重要标记。