PSIPRED安装与简单使用
PSIPRED是什么?
在对氨基酸序列进行机器学习建模时,要对氨基酸序列做特征提取,越丰富的特征通常可以带来越精准的预测结果,因此可以由原始的氨基酸序列预测出蛋白质的2级结构,水溶性等,丰富特征提取时的特征.PSIPRED是一种简单而准确的蛋白质二级结构预测工具,它结合两个前馈神经网络,对PSI-BLAST结果进行分析处理.更多的信息,参考:http://bioinf.cs.ucl.ac.uk/index.php?id=779
安装
下载安装包
- PSIPRED: http://bioinfadmin.cs.ucl.ac.uk/downloads/psipred/old_versions/psipred3.5.tar.gz
- BLAST: ftp://ftp.ncbi.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.26/blast-2.2.26-x64-linux.tar.gz
- SWISSPROT蛋白质序列: ftp://ftp.ncbi.nih.gov/blast/db/FASTA/swissprot.gz
注意:
- 对于BLAST还是BLAST+的选择,根据官网的建议是仍旧使用BLAST而不推荐使用BLAST+,主要原因是BLAST+在处理蛋白质序列的打分矩阵时做了精度上的降低,故我们本次的安装选择BLAST
NCBI are now trying to move users to the new BLAST+ package. Please
see the README file in the BLAST+ subdirectory for more information
on PSIPRED's support for BLAST+. For now the preferred option is
to stick with the classic BLAST package as the default. If the tar
or rpm file you are downloading from NCBI has "+" in the filename,
then you are downloading BLAST+ rather than BLAST.
- 对于PSIPRED版本的选择,经过测试最新的版本V4.02在一切前置条件都安装且配置正确的情况下,出现子命令blastpgp运行失败的问题.
tsch安装
由于PSIPRED使用tsch作为脚本语言,故安装tsch解释器
sudo apt install tcsh
经测试V3.5运行无误,故本次的安装以V3.5作为基础前提.
BLAST安装
BLAST下载并解压之后即可使用,无需特别编译安装
PSIPRED安装
tar -zxvf psipred3.5.tar.gz
cd psipred/src
make
make install
实际上,在进行编译和安装之前,在psipred/bin下已经存在所有所需的命令,但我还是按照README中文档进行的编译并安装,但是当你在安装时,可以尝试不编译安装是否有何影响.
环境变量
系统环境变量设置
export BLAST_HOME=/home/yizhou/blast-2.2.26
export PSIBLAST=/home/yizhou/psipred
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$BLAST_HOME/bin:$PSIBLAST/bin
BLAST库环境设置(重要)
vim ~/.ncbirc
[NCBI]
# 指向Blast data目录下即可
data=/home/yizhou/blast-2.2.26/data
[BLAST]
# 比对库存储路径,此变量的设置也可以省略
BLASTDB=/data/antibody
# 指向Blast data目录,blastpgp在运行时会依赖data目录下的相关库文件
BLASTMAT=/home/yizhou/blast-2.2.26/data
``
# 格式化本地比对库
```bash
gzip -d swissprot.gz
formatdb -i swissprot -n swissprot -t swissprot -p T
修改runpsipred文件
#!/bin/tcsh
# This is a simple script which will carry out all of the basic steps
# required to make a PSIPRED V2 prediction. Note that it assumes that the
# following programs are in the appropriate directories:
# blastpgp - PSIBLAST executable (from NCBI toolkit)
# makemat - IMPALA utility (from NCBI toolkit)
# psipred - PSIPRED V3 program
# psipass2 - PSIPRED V3 program
# NOTE: Script modified to be more cluster friendly (DTJ April 2008)
# 设置比对库
set dbname = /home/yizhou/sw/swissprot
# 设置blast bin二进制目录
set ncbidir = /home/yizhou/blast-2.2.26/bin
只设置以上两个环境变量即可
运行runpsipred
yizhou@master:~/psipred$ ./runpsipred example/example.fasta
Running PSI-BLAST with sequence example/example.fasta ...
Predicting secondary structure...
Pass1 ...
Pass2 ...
Cleaning up ...
Final output files: example.ss2 example.horiz
Finished.
至此,安装并结束运行!