vcf2gwas:简化全基因组关联分析
vcf2gwas 是一个 Python 构建的 API,用于 GEMMA、PLINK 和 bcftools,直接从 VCF 文件执行 GWAS 以及多个分析后操作。
如何使用?
vcf2gwas的使用非常简单。用户只需提供变异调用格式(VCF)文件和表型数据文件,即可通过一条命令行启动GWAS分析。例如:
# 安装
$ conda install vcf2gwas -c conda-forge -c bioconda -c fvogt257
# 测试demo
$ vcf2gwas -v test
# 运行
$ vcf2gwas -v <input:vcf> -pf <inputpheno:csv> -p1 lmm
该命令使用GEMMA的线性混合模型(lmm)分析单个表型。
特点
-
易安装:作为conda包或docker拉取,易于在兼容机器上复现GWAS。
-
自动化:从软件安装到结果处理,全流程自动化。
-
并行处理:支持多表型或不同个体集的高效分析。
-
结果可视化:自动生成曼哈顿图和QQ图,适合发表。
附加功能
-
执行PCA或UMAP以降低数据维度。
-
将相关SNP与感兴趣基因/区域进行比较。
-
提供额外的命令行选项以执行特定后分析操作。
结果
vcf2gwas使得GWAS分析对各种二倍体模型和非模型生物都易于访问,特别适合分析大量表型或不同个体集。
对单个表型运行线性混合模型分析后输出文件夹的示例目录和文件结构如下所示:
output/
└── 'model'
├── 'phenotype'
│ ├── QQ
│ │ └── QQ plot figure (.png)
│ ├── summary file (.txt)
│ ├── GEMMA output file (.txt)
│ ├── GEMMA log file (.txt)
│ ├── best_p-values
│ │ ├── top 1% variants (.csv)
│ │ ├── top 0.1% variants (.csv)
│ │ └── top 0.01 variants (.csv)
│ ├── manhattan
│ │ └── manhattan plot figure (.png)
│ └── significant SNP summary file (.csv)
├── files
│ └── files_'file'
│ ├── PLINK BED files (.bed, .bim, .fam, .nosex)
│ ├── PLINK log file (.log)
│ ├── GEMMA relatedness matrix (.txt)
│ └── GEMMA log file (.log.txt)
├── logs
│ └── analysis log file (.txt)
├── QC
│ ├── phenotype QC plot (.png)
│ └── genotype QC plots (.png)
├── summary
│ ├── summarized top SNPs (.csv)
│ └── top_SNPs
│ └── phenotype top SNPs (.csv)
└── vcf2gwas log file (.txt)
获取更多信息
访问vcf2gwas GitHub页面:https://github.com/frankvogt/vcf2gwas 获取安装指南和教程。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18328502。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律