gatk 对多个样本的g.vcf文件进行合并、进行变异检测
001、
gatk CombineGVCFs -R GCF_000001735.4_TAIR10.1_genomic.fna --variant SRR21814498.g.vcf --variant SRR21814509.g.vcf --variant SRR21814514.g.vcf -O cohort.g.vcf.gz
002、多个g.vcf文件可以写为一个list文件
gatk CombineGVCFs -R GCF_000001735.4_TAIR10.1_genomic.fna --variant gvcf.list -O cohort.g.vcf.gz ## 脚本需要在g.vcf文件所在的路径中运行
gvcf.list格式:
SRR21814498.g.vcf
SRR21814509.g.vcf
SRR21814514.g.vcf
003、变异检测、生成vcf文件
gatk --java-options "-Xmx400g -Xms400g -XX:+UseSerialGC" GenotypeGVCFs -R GCF_000001735.4_TAIR10.1_genomic.fna -V cohort.g.vcf.gz -O combine.call.vcf.gz
004、提取SNP
gatk --java-options "-Xmx400g -Xms400g -XX:+UseSerialGC" SelectVariants -R GCF_000001735.4_TAIR10.1_genomic.fna -V combine.call.vcf.gz -select-type SNP -O combine.SNP.vcf.gz
005、过滤SNP
gatk --java-options "-Xmx400g -Xms400g -XX:+UseSerialGC" VariantFiltration -R GCF_000001735.4_TAIR10.1_genomic.fna -V combine.SNP.vcf.gz --filter-expression "QD < 2.0 || MQ < 40.0 || FS > 60.0 || SOR > 3.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "Filter" -O combine.SNP.filter.vcf.gz
006、提取过滤好的SNP
gatk --java-options "-Xmx400g -Xms400g -XX:+UseSerialGC" SelectVariants -R GCF_000001735.4_TAIR10.1_genomic.fna -V combine.SNP.filter.vcf.gz --exclude-filtered -O combine.SNP.filtered.vcf.gz
参考:https://www.jianshu.com/p/7c124d5bbd4d
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2021-10-29 R语言中实现方差和标准差
2021-10-29 R语言中rbind函数和cbind的用法
2021-10-29 R语言中 %in%用法
2021-10-29 linux系统中向行末添加换行符
2021-10-29 linux 系统中实现列转行 及 行转列
2020-10-29 linux系统中的防火墙
2020-10-29 linux系统中删除逻辑卷