ttps://www.jianshu.com/p/d31404620c9b
https://github.com/genetics-statistics/GEMMA/releases
Gemma是一个用于基因组关联分析(GWAS)的统计软件。Gemma(Genome-wide Efficient Mixed Model Association)旨在处理复杂的遗传结构和相关性,并提供高效的计算方法来评估基因型和表型之间的关联。
Gemma具有以下主要特点和功能:
-
处理群体结构:Gemma能够有效处理群体结构和亲缘关系对GWAS结果的影响。它采用随机效应模型(REML)来建模个体间的相关性,从而减少假阳性结果。
-
基因型和表型数据处理:Gemma可以处理多种类型的基因型和表型数据。它支持常见的基因型数据格式,如PLINK格式、VCF格式等,并能够处理二元、连续和定量表型数据。
-
多重比较校正:Gemma支持在GWAS中进行多重比较校正,以控制错误发现率。它提供了多种校正方法,如Bonferroni校正、FDR(False Discovery Rate)校正等。
-
可视化和解释结果:Gemma可以生成曼哈顿图、Q-Q图等图形,用于可视化GWAS结果。此外,它还提供了结果解释的功能,包括识别关联区域、基因注释和功能注释等。
因为我处理的大多数是重测序的数据,所以得到的原始文件一般是vcf格式的,所以就从vcf格式开始转化了。
vcftools --vcf all.final.vcf --min-alleles 2 --max-alleles 2 --maf 0.05 --max-missing 0.3 --minQ 20 --recode --out test //做了一个初步过滤
vcftools --vcf test.recode.vcf --plink --out out
plink --file out --make-bed --out test--noweb
这样我们就获得了bed,bim,fam三个输入文件。
./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin
-
-bfile 2000
:-bfile
参数指定了二进制文件的前缀名。2000
是前缀名,表示输入文件名为2000.bed
,2000.bim
,2000.fam
。这些文件包含了基因型数据。 -
-gk 2
:-gk
参数表示计算遗传关系矩阵。2
是一个指定的参数值,表示使用 GEMMA 的方法进行遗传关系矩阵计算。 -
-o kin
:-o
参数指定输出文件的前缀名。kin
是前缀名,表示输出文件名为kin.cXX.txt
,其中XX
是一个数字。 - 结果保存在名为
kin.cXX.txt
的输出文件中
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
-
-bfile 2000
:-bfile
参数指定了二进制文件的前缀名。2000
是前缀名,表示输入文件名为2000.bed
,2000.bim
,2000.fam
。这些文件包含了基因型数据。 -
-k kin.sXX.txt
:-k
参数指定了遗传关系矩阵文件的路径。kin.sXX.txt
是文件的路径,其中XX
是一个数字,表示遗传关系矩阵文件的版本。 -
-lmm 1
:-lmm
参数指定了使用的关联模型。1
表示使用 GEMMA 的标准线性混合模型 (LMM) 进行关联分析。 -
-o GE_GWAS
:-o
参数指定输出文件的前缀名。GE_GWAS
是前缀名,表示输出文件名为GE_GWAS.txt
。
在GEMMA生成的GWAS结果中,常见的列名和对应的含义如下:
-
"chr":染色体编号。表示SNP所位于的染色体。
-
"rs":SNP的标识符。每个SNP都有一个唯一的rs号码。
-
"ps":物理位置。表示SNP在染色体上的物理位置。
-
"n_miss":缺失数据数。表示在该SNP位置上有多少个体的基因型数据缺失。
-
"allele1":等位基因1。表示SNP的其中一个等位基因。
-
"allele0":等位基因0。表示SNP的另一个等位基因。
-
"af":等位基因频率(Allele Frequency)。表示在给定人群中,等位基因1的频率。
-
"beta":效应估计值。表示SNP对表型的影响估计值,通常为线性回归的回归系数。
-
"se":标准误差(Standard Error)。表示估计值的标准误差,用于评估估计值的精度。
-
"logl_H1":对数似然(Log-likelihood)-1。表示在备择假设(H1)下的对数似然。
-
"l_remle":最大似然估计值(Restricted Maximum Likelihood Estimate)。表示通过最大似然方法计算得到的效应估计值。
-
"p_wald":Wald检验的p-value。表示根据Wald检验计算得到的关联统计量的p-value,用于衡量SNP与表型之间的关联的显著性。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!