CMplot 可视化曼哈顿,qqplot
library(CMplot) setwd("~/literature/recurring/manhat_qplot") df<-read.table("GCST90014052_buildGRCh38.tsv.gz",header=T,sep="\t") df_column<-df %>%sele

posted @ 2022-04-29 11:06 BioinformaticsMaster 阅读(4459) 评论(0) 推荐(0) 编辑

conditional analysis 把发现的lead SNP作为协变量看LD内是否有其他显著SNP
plink -condition https://zhuanlan.zhihu.com/p/363026493 https://www.cnblogs.com/chenwenyan/p/10278893.html

posted @ 2022-04-12 09:41 BioinformaticsMaster 阅读(104) 评论(0) 推荐(0) 编辑

Reference allele mismatch at chr1:1630781 .. REF_SEQ:'C' vs VCF:'T' Ref alleles mismatch between: [VC Unknown @ chr1:1630781 Q. of type=SNP alleles=[T*, C] attr={} GT=[[HG00472 T*/C]] ..
原因是待处理的vcf,他们的ref allele不一致,所以 解决方法是 bcftools norm 先统一 ref allele 如bcftools norm -c s -f /ldfssz1/ST_BIGDATA/USER/st_bigdata/Sentieon/reference_bigdat

posted @ 2022-03-16 21:58 BioinformaticsMaster 阅读(351) 评论(0) 推荐(0) 编辑

概率 贝叶斯公式 先验概率 后验概率
先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然总是搞混,这里总结一下常规的叫法: 先验概率: 事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。 后验概率: 事件发生后求的反向条件概率;或者说,基于先验

posted @ 2022-03-15 13:05 BioinformaticsMaster 阅读(3829) 评论(0) 推荐(0) 编辑

先phasing,再impute https://www.jianshu.com/p/c99702068b4a

posted @ 2022-03-04 10:12 BioinformaticsMaster 阅读(31) 评论(0) 推荐(0) 编辑

提取指定区域的fasta 提取序列: samtools faidx input.fa chr1 > chr1.fa samtools faidx input.fa chr1:100-200 > chr1.fa 例子, samtools faidx /hwfssz1/BIGDATA_COMPUTING

posted @ 2022-02-17 16:36 BioinformaticsMaster 阅读(202) 评论(0) 推荐(0) 编辑

GATK GenotypeConcordance 比较vcf一致性:Sequence dictionaries are not the same size
处理多份vcf时,报GATK GenotypeConcordance:Sequence dictionaries are not the same size 解决方案:统一header中的##contig=<ID= 部分 注: 1)脚本如下 gatk --java-options -Xmx3G Ge

posted @ 2022-02-17 15:48 BioinformaticsMaster 阅读(291) 评论(0) 推荐(0) 编辑

GATK joint-calling 不需要手动设置--ploidy
A pooled experiment is different from joint calling. It means when you combined the DNA of many individuals and sequenced them together. The DNA is no

posted @ 2022-01-24 15:33 BioinformaticsMaster 阅读(239) 评论(0) 推荐(0) 编辑

NCBI的gene id, ENTREZID 与Ensembl Gene ID的转换
NCBI的gene id, ENTREZID 与Ensembl Gene ID 互相转换网站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php 还有另外一个单向 ensemble 转NCBI的:https://www.biotools.fr/human/e

posted @ 2021-12-24 21:51 BioinformaticsMaster 阅读(5453) 评论(0) 推荐(0) 编辑

免疫 TCR BCR 病毒滴度
病毒滴度:病毒的毒力,毒价,衡量病毒滴度的单位有最小致死量(MLD)、最小感染量(MID)和半数致死量(LD50),其中LD50最常用,指在一定时间内能使半数试验动物致死的病毒量。 免疫,即身体对感染有抵抗能力。 人体内三道免疫防线: 1. 皮肤和黏膜构成 2.杀菌物质和吞噬细胞 3.特异性免疫。

posted @ 2021-05-20 15:46 BioinformaticsMaster 阅读(701) 评论(0) 推荐(0) 编辑

LD plot
连锁不平衡 linkage disequilibrium (LD) 又称为等位基因关联(allelic association) 广泛的遗传关联研究依赖genetic marker和disease locus的连锁不平衡(linkage disequilibrium,LD) http://www.v

posted @ 2021-05-11 10:16 BioinformaticsMaster 阅读(2114) 评论(0) 推荐(0) 编辑

beta p-value SE
Beta value Beta值(β) effect size 线性回归的参数https://www.mv.helsinki.fi/home/mjxpirin/GWAS_course/material/GWAS2.html Hello Mohsin, Cohen's f-squared would

posted @ 2021-04-27 10:07 BioinformaticsMaster 阅读(976) 评论(0) 推荐(0) 编辑

蛋白截断变异(protein-truncating variant,PTV)
蛋白截断变异(protein-truncating variant,PTV)通过引入终止密码子,移码突变或剪接位点,破坏蛋白编码基因[1]。蛋白截断变异的研究对于人类进化(human evolution),基因功能(gene function),疾病相关变异(disease-related vari

posted @ 2021-04-21 11:36 BioinformaticsMaster 阅读(3983) 评论(0) 推荐(0) 编辑

在群体遗传学中衡量群体间的遗传分化的程度的指标有许多种,较为常见的就是遗传分化指数(Fst),fst是由F统计量演变而来,F统计量主要有三种(FIS,FIF,FST)。Fst是针对一对等位基因,如果基因座上存在复等位基因,则需要用Gst衡量,基因差异分化系数(gene differentiation

posted @ 2021-04-09 17:53 BioinformaticsMaster 阅读(3348) 评论(1) 推荐(0) 编辑


