un-define - 博客园

2020年1月8日

摘要：去除基因组序列中的未定位的scaffold、Contig序列和线粒体序，主要针对NCBI提供refseq基因组序列，组装到染色体级别的物种基本都通用。将所有碱基统一成大写字母，并计算每条染色体长度，每80个字符换行。处理脚本如下： 1 use strict; 2 open A,"$ARGV[0]"; 3 open B,">$ARGV[1]"; 4 open C,">$ARGV[2]... 阅读全文

posted @ 2020-01-08 10:02 un-define 阅读(443) 评论(0) 推荐(0)

2019年12月28日

perl 多fasta文件匹配，并提取匹配文件第一条序列

摘要：目标如题，有多个fasta文件和一个文件名列表，将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件。这个采用perl实现，用法和代码如下： 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 \n",unless(@ARGV==3); 6 } 7 usage(); 8 ... 阅读全文

posted @ 2019-12-28 20:59 un-define 阅读(814) 评论(0) 推荐(0)

2019年12月27日

R 多图间距调整

摘要：在R中多图画到一起的时候，各图间距通常默认的较远。如下图： 1 par(mfcol=c(2,1)) 2 plot(1:100) 3 plot(1:100)调整图片间距这时我们要用到par()函数中的两个调节边距的参数，mar()和oma()。四个数字分别表示，下、左、上、右四个方向的内外边距，数值愈大距离越远；内外边距配合，缩减图间距。 1 par(mfcol=c(2,1),mar=c(1... 阅读全文

posted @ 2019-12-27 11:15 un-define 阅读(6675) 评论(0) 推荐(0)

ggplot2 颜色渐变（离散颜色）设置

摘要：一、示例数据准备数据格式如下：二、作图1、直接作图结果如下，默认蓝色渐变。 1 ggplot(df,aes(x=BP_A,y=P.value,colour=R2))+ 2 geom_point(size=2,shape=16)2、双色梯度渐变，主要有函数scale_color_gradient()控制。 1 ggplot(df,aes(x=BP_A,y=P.value,colour=R2... 阅读全文

posted @ 2019-12-27 10:29 un-define 阅读(19080) 评论(0) 推荐(0)

2019年12月14日

R语言因子排序

摘要：画图的时候，排序是个很重要的技巧,比如有时候会看下基因组每条染色体上的SNP的标记数量，这个时候直接做条形图是一种比较直观的方法，下面我们结合实际例子来看下：在R环境下之际构建一个数据框，一列染色体名称，一列统计数据。 1 chr<-paste("chr",c(1:18,"X","Y"),sep="") 2 set.seed(2) 3 num<-runif(20,100,5000) 4 d... 阅读全文

posted @ 2019-12-14 15:41 un-define 阅读(5128) 评论(0) 推荐(0)

2019年12月11日

利用plink软件基于LD信息过滤SNP

摘要：最近有需求，对WGS测序获得SNP信息进行筛减，可问题是测序个体少，call rate，maf，hwe，等条件过滤后，snp数量还是千万级别，所以后面利用plink工具根据LD信息来滤除大量SNP标记。工具版本：PLINK v1.90b4.6 64-bit (15 Aug 2017)一、格式转换首先将准备好的vcf文件转换下格式，map和ped格式： 1 plink --allow-extra-... 阅读全文

posted @ 2019-12-11 21:21 un-define 阅读(20817) 评论(2) 推荐(0)

利用vcftools比较两个vcf文件

摘要：因为最近有一项工作是比较填充准确性的，中间有用到vcftools比较两个vcf文件。使用命令也很简单： 1 vcftools --vcf file1.snp.vcf --diff file2.snp.vcf --diff-site --out Diff.site 运行结束会生成一个名为Diff.s 阅读全文

posted @ 2019-12-11 20:27 un-define 阅读(4917) 评论(0) 推荐(1)

2019年12月3日

在R语言中使用Stringr进行字符串操作

摘要：今天来学习下R中字符串处理操作，主要是stringr包中的字符串处理函数的用法。先导入stringr包，library(stringr)，require(stringr),或者stringr::函数名；这几种方式都行。一、检测是否匹配我们先定义一个字符串和变量，在此基础上演示各个函数基本用法。 1 library(stringr) 2 animal<-c("cow","dog","sheep"... 阅读全文

posted @ 2019-12-03 10:05 un-define 阅读(7187) 评论(0) 推荐(0)

2019年12月2日

perl 数组快速去除重复元素

摘要：这里记录两种perl数组去重的办法，一种利用哈希（hash），一种直接利用perl自带的模块List::MoreUtils内部的函数uniq。一、利用hash去重示例代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 my @list=qw /1 2 3 2 1 4 aa a bb c b bb d/; 5 foreach (@list){pri... 阅读全文

posted @ 2019-12-02 15:16 un-define 阅读(8483) 评论(0) 推荐(0)

Shell中 ##%% 操作变量名

摘要：在linxu平台下少不了对变量名的处理，今天记录下shell中 ##%% 对变量名的操作。 #操作左侧，%操作右侧。 #号处理方式：对于单个#，处理对象为变量中指定的第一个符号左侧字符串，对于两个##，处理对象为变量中指定的最后一个符号左侧字符串。 %号处理方式：对于单个%，操作对象是变量中指阅读全文

posted @ 2019-12-02 11:23 un-define 阅读(2176) 评论(0) 推荐(0)

天使不设防

学习不会让你变得全知全能但能让你变得不再害怕未知

公告

天使不设防

学习不会让你变得全知全能 但能让你变得不再害怕未知

公告

学习不会让你变得全知全能但能让你变得不再害怕未知