ttps://www.jianshu.com/p/d31404620c9b

https://github.com/genetics-statistics/GEMMA/releases

Gemma是一个用于基因组关联分析(GWAS)的统计软件。Gemma(Genome-wide Efficient Mixed Model Association)旨在处理复杂的遗传结构和相关性,并提供高效的计算方法来评估基因型和表型之间的关联。

Gemma具有以下主要特点和功能:

  1. 处理群体结构:Gemma能够有效处理群体结构和亲缘关系对GWAS结果的影响。它采用随机效应模型(REML)来建模个体间的相关性,从而减少假阳性结果。

  2. 基因型和表型数据处理:Gemma可以处理多种类型的基因型和表型数据。它支持常见的基因型数据格式,如PLINK格式、VCF格式等,并能够处理二元、连续和定量表型数据。

  3. 多重比较校正:Gemma支持在GWAS中进行多重比较校正,以控制错误发现率。它提供了多种校正方法,如Bonferroni校正、FDR(False Discovery Rate)校正等。

  4. 可视化和解释结果:Gemma可以生成曼哈顿图、Q-Q图等图形,用于可视化GWAS结果。此外,它还提供了结果解释的功能,包括识别关联区域、基因注释和功能注释等。

 

因为我处理的大多数是重测序的数据,所以得到的原始文件一般是vcf格式的,所以就从vcf格式开始转化了。

vcftools --vcf all.final.vcf --min-alleles 2 --max-alleles 2 --maf 0.05 --max-missing 0.3  --minQ 20 --recode --out test  //做了一个初步过滤

vcftools   --vcf test.recode.vcf --plink --out out

plink --file out   --make-bed --out test--noweb

这样我们就获得了bed,bim,fam三个输入文件。



./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin 
  • -bfile 2000: -bfile 参数指定了二进制文件的前缀名。2000 是前缀名,表示输入文件名为 2000.bed, 2000.bim, 2000.fam。这些文件包含了基因型数据。

  • -gk 2: -gk 参数表示计算遗传关系矩阵。2 是一个指定的参数值,表示使用 GEMMA 的方法进行遗传关系矩阵计算。

  • -o kin: -o 参数指定输出文件的前缀名。kin 是前缀名,表示输出文件名为 kin.cXX.txt,其中 XX 是一个数字。

  • 结果保存在名为 kin.cXX.txt 的输出文件中
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
  • -bfile 2000: -bfile 参数指定了二进制文件的前缀名。2000 是前缀名,表示输入文件名为 2000.bed, 2000.bim, 2000.fam。这些文件包含了基因型数据。

  • -k kin.sXX.txt: -k 参数指定了遗传关系矩阵文件的路径。kin.sXX.txt 是文件的路径,其中 XX 是一个数字,表示遗传关系矩阵文件的版本。

  • -lmm 1: -lmm 参数指定了使用的关联模型。1 表示使用 GEMMA 的标准线性混合模型 (LMM) 进行关联分析。

  • -o GE_GWAS: -o 参数指定输出文件的前缀名。GE_GWAS 是前缀名,表示输出文件名为 GE_GWAS.txt



 

 

在GEMMA生成的GWAS结果中,常见的列名和对应的含义如下:

  • "chr":染色体编号。表示SNP所位于的染色体。

  • "rs":SNP的标识符。每个SNP都有一个唯一的rs号码。

  • "ps":物理位置。表示SNP在染色体上的物理位置。

  • "n_miss":缺失数据数。表示在该SNP位置上有多少个体的基因型数据缺失。

  • "allele1":等位基因1。表示SNP的其中一个等位基因。

  • "allele0":等位基因0。表示SNP的另一个等位基因。

  • "af":等位基因频率(Allele Frequency)。表示在给定人群中,等位基因1的频率。

  • "beta":效应估计值。表示SNP对表型的影响估计值,通常为线性回归的回归系数。

  • "se":标准误差(Standard Error)。表示估计值的标准误差,用于评估估计值的精度。

  • "logl_H1":对数似然(Log-likelihood)-1。表示在备择假设(H1)下的对数似然。

  • "l_remle":最大似然估计值(Restricted Maximum Likelihood Estimate)。表示通过最大似然方法计算得到的效应估计值。

  • "p_wald":Wald检验的p-value。表示根据Wald检验计算得到的关联统计量的p-value,用于衡量SNP与表型之间的关联的显著性。




 

posted on   黑逍逍  阅读(1513)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示