本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。
Introduction
针对特定结构和功能的蛋白质进行工程和设计,不仅加深了对蛋白质序列结构关系的理解,而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里,蛋白质设计取得了显著的成功,其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠,酶设计,疫苗,抗体,新的蛋白质组装,配体结合蛋白和膜蛋白。
Results
Networks architecture, input, and training
数据集:数据集来源于PDB且具有如下特征:
(1)用x射线晶体学确定结构;
(2)分辨率优于$$2 \r A $$;
(3)链长大于50;
(4)结构没有任何DNA/RNA分子。
移除同源蛋白质后分为三个数据集非别是30%、50%、90%(SI30,SI50,SI90)
输入:对于每个数据集,提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。
过程:目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率(图A),同时也将input输入到权重网络中得到一个权重输出(图B)。残差概率网路和权重网络本文模型架构的子网络,将这两个输出concat后输入到后续网络最终输出概率。
训练:线性层ReLU作为所有层的激活函数。训练采用交叉熵(categorical cross entropy )作为损失函数,采用随机梯度下降法进行优化,学习率为0.01,批处理大小为40,000,epoch是1000。
Overall and amino acid specific accuracy
表 神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度
Indentity cutoff
|
N=10
|
N=15
|
N=20
|
N=25
|
N=30
|
30%
|
0.329
$$(0.001)^*$$
|
0.340
$$\mathbf{(0.005)} $$
|
0.333
$$(0.009)$$
|
0.331
$$(0.006)$$
|
0.321
$$(0.015)$$
|
50%
|
0.353
$$(0.003) $$
|
0.364
$$\mathbf{(0.005)} $$
|
0.358
$$(0.005) $$
|
0.359
$$(0.006) $$
|
0.342
$$(0.007) $$
|
90%
|
0.367
$$(0.001) $$
|
0.383
$$\mathbf{(0.004)} $$
|
0.382
$$(0.006) $$
|
0.379
$$(0.007) $$
|
0.352
$$(0.013) $$
|
*括号中为标准差
正如预期的那样,由于更多的数据样本和样本之间的相似性,具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番,精度的提高并不显著。N=15时准确性最好,小于15时较少的相邻残基可能不足以代表目标残基的环境,而大于15时包含太多的领域残基会在输入中产生噪声。
针对总体精度最好的SI90N15分析每种氨基酸的召回率和精确度。其中Gly(甘氨酸)和Pro(脯氨酸)的召回率和准确率都较好。因为Pro具有特殊的刚性构象,而Gly在主链二面体方面具有高度的灵活性。召回、精度较低的氨基酸在训练集中的丰度通常较低,例如Met、Gln和His。
计算了每个天然氨基酸被预测为20个氨基酸的概率,并将其绘制在二维天然氨基酸和预测的热图中(如上图)。x轴和y轴上的氨基酸是根据它们的性质和彼此之间的相似性来排序的。正如预期的那样,对角线网格显示出更高的概率。有趣的是,沿着对角线有几个组,包括
网络的输出是20个氨基酸的概率在一个目标位置,除了上面提到的准确性,也可以计算top-K精度:如果源氨基酸在top-K预测(K氨基酸概率最高),预测被认为是正确的。在SI90N15数据集上训练的网络的前2、3、5和10个准确率分别达到54.3%、64.0%、76.3%和91.7%。
表 Rosetta固定主干设计在三个蛋白质有/没有残基类型约束的平均序列准确率
Protein
|
No-restrain*
|
Top 1
|
Top 3*
|
Top 5*
|
Top 10*
|
2B8I
|
$$0.276 \pm 0.033 $$
|
0.337
|
$$0.306 \pm 0.017$$
(0.558)
|
$$\mathbf{0.354 \pm 0.021} $$
(0.688)
|
$$0.293 \pm 0.037 $$
(0.883)
|
1HOE
|
$$0.408 \pm 0.026 $$
|
0.338
|
$$\mathbf {0.473 \pm 0.018} $$
(0.635)
|
$$0.441 \pm 0.018 $$
(0.689)
|
$$0.416 \pm 0.028 $$
(0.851)
|
2IGD
|
$$0.409 \pm 0.034$$
|
0.475
|
$$0.473 \pm 0.023 $$
(0.705)
|
$$0.401 \pm 0.028 $$
(0.754)
|
$$0.408 \pm 0.032 $$
(0.967)
|
应用Top-3、5和10预测限制设计三个蛋白质包括all-α蛋白(2B8I60),all-β蛋白质(1HOE61)和混合αβ蛋白(2IGD),这些蛋白质都不包含在训练集中。蛋白质的晶体结构被用作在SI90N15数据集上训练的神经网络的输入。每个位置的固定主干设计程序中的Top-3、5和10个氨基酸作为约束条件。作为对照,列出了这些蛋白质上神经网络的最高准确性,并且进行了固定主干设计(每个位置允许所有20种天然氨基酸)。由于fixbb使用了一种随机设计算法,为每个蛋白质生成了500个序列,并计算出与天然蛋白质的平均序列一致性。
PS
- 特征包括基本的几何和结构属性的残留,如Cα-Cα距离,主干二面体φ,ψ,ω的$$cos$$和$$sin$$的值,通过一个中心$$C_{\alpha} $$残基到领域$$C_{\alpha}$$残基的单位向量确定相邻残基和目标残基的相对位置,三种二级结构(螺旋、片状和环状),主链骨架氢键的数量,和溶剂访问骨干原子的表面积。
- 召回是正确预测(恢复)的原生残基的百分比,精度是正确预测的百分比。