lumpy-sv

安装程序：

# 使用conda安装lumpy-sv，报错：
# CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/noarch/repodata.json>
# Elapsed: -
# An HTTP error occurred when trying to retrieve this URL.
# HTTP errors are often intermittent, and a simple retry will get you on your way.
# 报错原理：
# conda无法创建虚拟环境并且无法安装其他第三方包
# 默认镜像源访问速度过慢，会导致超时从而导致更新和下载失败。、
# 解决方案：
# 更换镜像源为清华镜像源，并且删除默认镜像源。可以通过修改condarc文件
# 结果发现清华镜像2019就停止服务了，改成可以服务的中科大镜像！
# 安装：
conda install -c bioconda lumpy-sv
# 查看rc文件位置：
conda config --show-sources

创建python2.7的虚拟环境：

# 创建lumpy-sv使用的python2.7虚拟环境
conda create -n Python2.7 python=2.7
source activate Python2.7
# 如果无法成功激活，那么source activate 虚拟环境完整路径名
conda install -c bioconda lumpy-sv
conda install -c bioconda samblaster

lumpy-sv分析之前数据预处理：

#lumpy分析之前的数据预处理:
bwa mem -R "@RG\tID:${sample_id}\tSM:${sample_t}\tLB:lib" ${ref} ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R1.clean.fastq.gz ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R2.clean.fastq.gz
    | samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 
    | samtools view -S -b - 
    > ${result_dir}/${sample_t}.bam
# bwa命令：
# "@RG\tID:$sample\tSM:$sample\tLB:WES\tPL:Illumina"的read group信息，用于区分不同的样本，
# 其中ID每个group的唯一ID, 
# SM表示样本名称， 
# LB代表library,表示文库的名字，
# PL代表platform, 表示测序平台的名字，可选值有Illumina, Pacbio
# --maxSplitCount    INT Maximum number of split alignments for a read to be included in splitter file. 
# --minNonOverlap    INT Minimum non-overlaping base pairs between two alignments for a read to be included in splitter file.
# samblaster命令：
# 比对完成之后需要用samblaster处理一下，
# 主要对bam文件不正常的比对结果进行标记，以便接下里进行处理。
samtools view -b -F 1294 sample.bam | samtools sort - > sample.discordants.sorted.bam
# 将discordant的比对提取出来
# -F 1294:samtools flags 1294
# 可以发现1294表示"PROPER_PAIR,UNMAP,MUNMAP,SECONDARY,DUP"，
# 带上-F意味着以上这些标记在我们筛选的联配记录中都不会出现，
# 也就意味着筛选的记录要符合下面要求
# 不能是PROPER_PAIR: 就是比对工具认为都正确比对到基因组上，在同一条染色体，在同一条链的情况，常见的就是83,147和99,163
# 不能是UNMAP和MUNMAP，也就是配对的短读至少有一个能够比对到参考基因组上
# 也不能是SECONDARY， 也就是他必须是主要联配
# 光学重复，DUP, 就更加不能要了
samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort -   > sample.splitters.sorted.bam
# 使用lumpy软件自带的extractSplitReads_BwaMem将splitreads提取出来，如果conda下载的lumpy找不到该脚本，重新去github再下载一下源代码包就好

lumpy分析：

lumpyexpress -B tumor.bam,normal.bam -S tumor.splitters.bam,normal.splitters.bam -D   tumor.discordants.bam,normal.discordants.bam -o tumor_normal.vcf
# 使用lumpyexpress 进行 variant calling,有tumor-only模式，也有tumor-normal配对模式，以上代码需要修改，不能直接用