CentOS 6.8上安装指定版本的注释软件 VEP,release 93.4
2020-06-20 11:50 安达小狗 阅读(1899) 评论(0) 编辑 收藏 举报按照同事的要求,安装 v93.4
1、软件下载,gitlab中下载软件一定是到 release中找指定的版本下载,不能直接下载master中的版本,因为master中是开发版本,可能不稳定,只有master开发到一个成熟的阶段后,才会发布一个新版本,放到 releases中,如下图 VEP已经有了111个版本了。
https://github.com/Ensembl/ensembl-vep/releases
实际在网页上直接下载压缩包时遇到了点问题,怎么也下载不下来,然后就到服务器上用git命令来clone了,具体命令:
git clone https://github.com/Ensembl/ensembl-vep.git
clone之后默认时master中的代码,用 git tag 可以看到所有的版本号,找到本次的版本: release/93.4 ,然后切换到该tag版本的代码:
git checkout -b 93.4 release/93.4 ,这个时候版本就切换到了93.4 ,如果怕不是当前版本,可以通过看log核实一下:
先看本地的log 最后一次提交:
去网页上看这个版本最后一次代码提交对应的标记,如下图的:4143fcd 与我们上图中最后一次提交的标记前7位是一样的(前7位一样基本就能判断是一致的了),说明版本没有问题了。
2、数据库下载,同样按照要求下载指定版本的数据库,下载 GRCh37 版本的3个文件,文件比较大,所以只能放到集群上去下载了,
http://ftp.ensembl.org/pub/release-93/variation/VEP/
使用命令,添加-c 是为了断点续传,下载过程中断了好几次,所以每天需要看一下,下载了5天终于全部下载完成:
wget -c http://ftp.ensembl.org/pub/release-93/variation/VEP/homo_sapiens_vep_93_GRCh37.tar.gz
参考基因组用的是这个版本: ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz ,下载解压后放到文件夹:$vep_database/homo_sapiens_refseq/93_GRCh37 ,需要创建索引 fai 和index 文件,这几个是直接从集群上找到的,所以没有具体操作。
3、数据库格式转换
可以在软件目录下创建两个文件夹 :vep_database 放数据库(然后解压) ,vep_install 这个放安装过程中的软件包
然后把这两个路径添加到环境变量中:
export VEP_PATH=/share/user1/software/ensembl-vep-release-93.4/vep_install
export VEP_DATA=/share/user1/software/ensembl-vep-release-93.4/vep_database
export PATH=$VEP_PATH/htslib:$PATH
export PERL5LIB=$VEP_PATH:$PERL5LIB
用这个命令对数据库进行格式转换,因为数据库比较大,所以放后台让他跑去吧:
nohup perl convert_cache.pl --species homo_sapiens --version 93_GRCh37 --dir $VEP_DATA --force_overwrite &
4、软件安装,这个需要服务器可以连外网,因为要下载一些包,安装命令很简单:
perl INSTALL.pl -h 用这个查看安装时每个参数的含义,我用到了以下几个红框框住的参数:
perl INSTALL.pl -n -s homo_sapiens --ASSEMBLY GRCh37 -d $VEP_PATH -c $VEP_DATA
安装过程中经常会报错,所以最好找个网络好的时间安装,比方说早上八九点,网络不好报的错误大概如下,报这个错误之后,就重新开个中断,重新安装,多试几次,最后应该可以成功。
curl failed (000), trying to fetch using LWP::Simple
LWP::Simple failed (500), trying to fetch using HTTP::Tiny
ERROR: Failed last resort of using HTTP::Tiny to download https://raw.githubusercontent.com
这过程中会安装BioPerl、biodbhts、htslib 到 $vep_install 目录中,还有VEP的API,会安装到 $vep_install/Bio/EnsEMBL 中,安装过程中观察到了这几个包的大小:
6.9M ensembl.zip
12M release-1-6-924.zip # 这个是 BioPerl
ensembl-io 这个比较小,没有看到
OK ,大功告成,给同事使用吧。