代码改变世界

CentOS 6.8上安装指定版本的注释软件 VEP,release 93.4

2020-06-20 11:50  安达小狗  阅读(1899)  评论(0编辑  收藏  举报

按照同事的要求,安装 v93.4

1、软件下载,gitlab中下载软件一定是到 release中找指定的版本下载,不能直接下载master中的版本,因为master中是开发版本,可能不稳定,只有master开发到一个成熟的阶段后,才会发布一个新版本,放到 releases中,如下图 VEP已经有了111个版本了。

https://github.com/Ensembl/ensembl-vep/releases 

 

 

 实际在网页上直接下载压缩包时遇到了点问题,怎么也下载不下来,然后就到服务器上用git命令来clone了,具体命令:

git clone  https://github.com/Ensembl/ensembl-vep.git 

clone之后默认时master中的代码,用 git tag 可以看到所有的版本号,找到本次的版本: release/93.4 ,然后切换到该tag版本的代码:

git checkout -b 93.4 release/93.4   ,这个时候版本就切换到了93.4 ,如果怕不是当前版本,可以通过看log核实一下:

先看本地的log 最后一次提交:

 

 

 去网页上看这个版本最后一次代码提交对应的标记,如下图的:4143fcd 与我们上图中最后一次提交的标记前7位是一样的(前7位一样基本就能判断是一致的了),说明版本没有问题了。

 

 

 

2、数据库下载,同样按照要求下载指定版本的数据库,下载 GRCh37 版本的3个文件,文件比较大,所以只能放到集群上去下载了,

http://ftp.ensembl.org/pub/release-93/variation/VEP/ 

使用命令,添加-c 是为了断点续传,下载过程中断了好几次,所以每天需要看一下,下载了5天终于全部下载完成:

wget -c http://ftp.ensembl.org/pub/release-93/variation/VEP/homo_sapiens_vep_93_GRCh37.tar.gz  

参考基因组用的是这个版本: ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz ,下载解压后放到文件夹:$vep_database/homo_sapiens_refseq/93_GRCh37 ,需要创建索引 fai 和index 文件,这几个是直接从集群上找到的,所以没有具体操作。

3、数据库格式转换 

可以在软件目录下创建两个文件夹 :vep_database  放数据库(然后解压) ,vep_install 这个放安装过程中的软件包

然后把这两个路径添加到环境变量中:

export VEP_PATH=/share/user1/software/ensembl-vep-release-93.4/vep_install
export VEP_DATA=/share/user1/software/ensembl-vep-release-93.4/vep_database
export PATH=$VEP_PATH/htslib:$PATH
export PERL5LIB=$VEP_PATH:$PERL5LIB

用这个命令对数据库进行格式转换,因为数据库比较大,所以放后台让他跑去吧:

nohup perl convert_cache.pl --species homo_sapiens --version 93_GRCh37 --dir $VEP_DATA --force_overwrite &

 

4、软件安装,这个需要服务器可以连外网,因为要下载一些包,安装命令很简单:

perl INSTALL.pl  -h   用这个查看安装时每个参数的含义,我用到了以下几个红框框住的参数:

perl INSTALL.pl -n -s homo_sapiens --ASSEMBLY GRCh37 -d $VEP_PATH  -c  $VEP_DATA

 

 安装过程中经常会报错,所以最好找个网络好的时间安装,比方说早上八九点,网络不好报的错误大概如下,报这个错误之后,就重新开个中断,重新安装,多试几次,最后应该可以成功。

curl failed (000), trying to fetch using LWP::Simple
LWP::Simple failed (500), trying to fetch using HTTP::Tiny
ERROR: Failed last resort of using HTTP::Tiny to download https://raw.githubusercontent.com

这过程中会安装BioPerl、biodbhts、htslib 到 $vep_install 目录中,还有VEP的API,会安装到 $vep_install/Bio/EnsEMBL 中,安装过程中观察到了这几个包的大小:

 25M ensembl-variation.zip
6.9M ensembl.zip
12M release-1-6-924.zip  # 这个是 BioPerl
ensembl-io 这个比较小,没有看到
只要这几个包安装成功了,那基本就没有问题了。
 
6、插件下载和安装,git 网址: https://github.com/Ensembl/VEP_plugins 
 git clone  https://github.com/Ensembl/VEP_plugins.git  ,检出后把文件夹中的文件全部放到  $vep_database/Plugins 中,即可。
 
5、测试,这个目录中有测试数据
/share/user1/software/ensembl-vep-release-93.4/examples 
测试命令,对这个软件不太了解,所以这些参数是干嘛的也不太清楚哈:
perl /share/user1/software/ensembl-vep-release-93.4/vep -input_file /share/user1/software/ensembl-vep-release-93.4/examples/homo_sapiens_GRCh37.vcf --format vcf --output_file examples.vep.vcf --vcf --symbol --terms SO --plugin Downstream --plugin SingleLetterAA --dir /share/work3/liuw4318/software/ensembl-vep-release-93.4/vep_database --fasta /share/work3/liuw4318/software/ensembl-vep-release-93.4/vep_database/homo_sapiens_refseq/93_GRCh37/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa --force_overwrite --species homo_sapiens --assembly GRCh37 --cache --no_progress --offline --hgvs --shift_hgvs 0
 
结果展示:

 

 

OK ,大功告成,给同事使用吧。