随笔分类 - bio
摘要:
bam文件的第二列的flag值,代表了当前read比对到基因组序列的基本情况。flag值由2的0次方到2的11次方这11个数字组成,即1,2,4,8,16,32,64,128,256,512,1024,2048。每个数字表示的比对情况这里不赘述,当获得当前read的flag值时,如何拆解成flag最
阅读全文

摘要:之前写的一个小工具,写的很简陋,名字取的也很随意就叫skr,哈哈。主要是fq转fa、合并多个染色体的vcf文件等,功能不多(主要是C写起来太操蛋了T_T),通常我也只用来统计fastq文件信息: 这里给出工具地址:https://github.com/sharkLoc/skrTools 安装: gi
阅读全文
摘要:最近在学习snakemake 用于生信流程管理,现在用一个snakemake 来完成小任务:将在某一文件夹下的多个bam文件截取一部分,然后建立索引,在提取出fastq序列,最后比对回基因组。 需要两个文件,一个配置文件config.yaml和snakemake文件。 config.yaml 文件内
阅读全文
摘要:Jvarkit : Java utilities for Bioinformatics :一个java写的生物信息工具包:http://lindenb.github.io/jvarkit/
阅读全文
摘要:GATK4 检测的SNP标记,有些位点会在检测过程中完成 phasing,在后续做基因型填充的时候有坑。 GATK4 phasing 结果的缺失位点不是 ./. 也不是 .|. 而是直接变成一个单独的点;下图黄线标记出来的部分,上面是原始结果,下面是修改后结果。 基于此后续做 phasing 才能顺
阅读全文
摘要:1 static char *revers(char *s) 2 { 3 int len=strlen(s); 4 char *s2=(char *)malloc(sizeof(char)*(len+1)); 5 for(int i=len-1; i>=0; i--) 6 { 7 switch (s
阅读全文
摘要:http://methodspopgen.com/methods-to-infer-populations-history/
阅读全文
摘要:一、芯片数据 此次拿到的illumina芯片数据并不是原始的数据,已经经过GenomeStudio软件处理成了finalreport文件,格式如下: 之前没处理过芯片数据,对于这种编码模式(Forward,top AB)的基因型数据很疑惑,查了很多资料,收效甚微。看过建明大神对芯片这块儿的介绍,发现
阅读全文
摘要:最近有需求,对WGS测序获得SNP信息进行筛减,可问题是测序个体少,call rate,maf,hwe,等条件过滤后,snp数量还是千万级别,所以后面利用plink工具根据LD信息来滤除大量SNP标记。工具版本:PLINK v1.90b4.6 64-bit (15 Aug 2017)一、格式转换首先将准备好的vcf文件转换下格式,map和ped格式: 1 plink --allow-extra-...
阅读全文
摘要:因为最近有一项工作是比较填充准确性的,中间有用到vcftools比较两个vcf文件。 使用命令也很简单: 1 vcftools --vcf file1.snp.vcf --diff file2.snp.vcf --diff-site --out Diff.site 运行结束会生成一个名为Diff.s
阅读全文
摘要:做群体变异检测后,通常会有提取子集的操作,之前没有发现bcftools有这个功能,都是自己写脚本操作,数据量一上来,速度真的是让人无语凝噎。这里记录下提取子vcf文件的用法,软件版本:bcftools-1.5 一、根据个体提取子集 根据样品名提取vcf文件,准备要保留的个体名文件 keep.list
阅读全文
摘要:做数据比较的时候,由于同一个样本测序数据量不一致,需要抽取数据,控制数据量基本一致。 自己写脚本速度较慢,后面发现一个不错的工具:seqtk 原始数据抽取 如果只控制原始数据量一致,过滤低质量数据后直接使用seqtk (Version: 1.3-r106) 的子模块seq, 配合参数 -s 设定随机
阅读全文
摘要:直接使用os模块的popen打开 import sys import os a=os.popen('/Soft/samtools-1.2/samtools flags '+sys.argv[1] ,'r') print(a.read())
阅读全文