摘要:
set.seed(1) h1<-hist(rnorm(1000,100,5)) h2<-hist(rnorm(1000,99,5)) plot(h2,col=rgb(255,0,0,50,maxColorValue =255),border = NA) plot(h1,col=rgb(225,225 阅读全文
摘要:
一、芯片数据 此次拿到的illumina芯片数据并不是原始的数据,已经经过GenomeStudio软件处理成了finalreport文件,格式如下: 之前没处理过芯片数据,对于这种编码模式(Forward,top AB)的基因型数据很疑惑,查了很多资料,收效甚微。看过建明大神对芯片这块儿的介绍,发现 阅读全文
摘要:
实现:eval 1 a="indv1" 2 indv1="Sus1" 3 4 eval tmp='$'$a 5 echo $tmp //这里 echo 返回值为Sus1 阅读全文
摘要:
去除基因组序列中的未定位的scaffold、Contig序列和线粒体序,主要针对NCBI提供refseq基因组序列,组装到染色体级别的物种基本都通用。将所有碱基统一成大写字母,并计算每条染色体长度,每80个字符换行。处理脚本如下: 1 use strict; 2 open A,"$ARGV[0]"; 3 open B,">$ARGV[1]"; 4 open C,">$ARGV[2]... 阅读全文
摘要:
目标如题,有多个fasta文件和一个文件名列表,将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件。这个采用perl实现,用法和代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 \n",unless(@ARGV==3); 6 } 7 usage(); 8 ... 阅读全文
摘要:
在R中多图画到一起的时候,各图间距通常默认的较远。如下图: 1 par(mfcol=c(2,1)) 2 plot(1:100) 3 plot(1:100)调整图片间距这时我们要用到par()函数中的两个调节边距的参数,mar()和oma()。四个数字分别表示,下、左、上、右四个方向的内外边距,数值愈大距离越远;内外边距配合,缩减图间距。 1 par(mfcol=c(2,1),mar=c(1... 阅读全文
摘要:
一、示例数据准备数据格式如下:二、作图1、直接作图结果如下,默认蓝色渐变。 1 ggplot(df,aes(x=BP_A,y=P.value,colour=R2))+ 2 geom_point(size=2,shape=16)2、双色梯度渐变,主要有函数scale_color_gradient()控制。 1 ggplot(df,aes(x=BP_A,y=P.value,colour=R2... 阅读全文
摘要:
画图的时候,排序是个很重要的技巧,比如有时候会看下基因组每条染色体上的SNP的标记数量,这个时候直接做条形图是一种比较直观的方法,下面我们结合实际例子来看下:在R环境下之际构建一个数据框,一列染色体名称,一列统计数据。 1 chr<-paste("chr",c(1:18,"X","Y"),sep="") 2 set.seed(2) 3 num<-runif(20,100,5000) 4 d... 阅读全文
摘要:
最近有需求,对WGS测序获得SNP信息进行筛减,可问题是测序个体少,call rate,maf,hwe,等条件过滤后,snp数量还是千万级别,所以后面利用plink工具根据LD信息来滤除大量SNP标记。工具版本:PLINK v1.90b4.6 64-bit (15 Aug 2017)一、格式转换首先将准备好的vcf文件转换下格式,map和ped格式: 1 plink --allow-extra-... 阅读全文
摘要:
因为最近有一项工作是比较填充准确性的,中间有用到vcftools比较两个vcf文件。 使用命令也很简单: 1 vcftools --vcf file1.snp.vcf --diff file2.snp.vcf --diff-site --out Diff.site 运行结束会生成一个名为Diff.s 阅读全文