2013 年 12月 13 日随笔档案 - 三川

2013年12月13日

摘要：统计这样一个文本：1@FLID=rs2151655; status=known; support=C30; mut_type=Hom; region=Intergenic; function=5-UTR; mut_name=c.*2978C->T/T;flank5=CTGCC.CCCAA;flank5=CAGCC.GTGGT;2@DLID=snp1;support=A249; mut_type=Hom; region=Gene; NM_ID=NM_005957; flank5=cacca.ttgtt;function=5-UTR; mut_name=c.*2978C->T/T; f 阅读全文

posted @ 2013-12-13 10:47 三川阅读(381) 评论(0) 推荐(0) 编辑

awk分类匹配问题--比较每一子类和其总类的区别

摘要：像下面这种文本，我想以第一列作为类，比如都是以*阿拉伯数字开头后面接字母的，归为一类，如*1和*1XN、*1A是一类，*2和*2A、*2D是一类，*1是种类，*1XN、*1A是子类（如果没有子类则不理会），子类每一行和它的总类比较，判断每一列和总类对应列的差异，如果不同则输出该列的title，并且输出不同的情况。比如*1的第二列是C，它的子类*1XN和*1A的第二列分别是C和A，那么就在对应位置输出位于首行的title：rs769258：C>A；------------------------------------------------------------------------ 阅读全文

posted @ 2013-12-13 10:46 三川阅读(429) 评论(0) 推荐(0) 编辑

获取指定列中的连续数字

摘要：生物信息学中通常用c.110A->G表示突变位点，要转回绝对坐标时，通常用c.110匹配到refgene。如果是下面的数据：OTCNM_0005318.7MbOTCNM_0005319095ASS1NM_000050c.1127-9_1185dup67(describedCPS1NM_00112263335RYR1NM_00054027NAT1NM_0011601756G6PDNM_000402c.1084_1101delCTGAACGAGCGCAAGGCCNAT2NM_000015c.857G>A你必须转换成：OTCNM_0005318.7OTCNM_0005319095ASS1 阅读全文

posted @ 2013-12-13 10:45 三川阅读(287) 评论(0) 推荐(0) 编辑

文本每行的某列作为参数传递给别的程序

摘要：我有一个程序 test.pl要求输入两个参数，所有的参数存在于另一个文件的第二第三列，我怎么才能实现让文本每行的第2、3列作为参数调用这个程序呢？比如参数文本是：1 a.txt b.txt2 a.txt c.txt想实现perl test.pl a.txt b.txtperl test.pl a.txt c.txt1 --------------------------------------------------------------------------------------2 awk '{system("perl test.pl "$2" & 阅读全文

posted @ 2013-12-13 10:44 三川阅读(244) 评论(0) 推荐(0) 编辑

shell和perl对文件单词的频数统计

摘要： perl：1 #!/usr/bin/perl -w2 open(MY,"word.txt")or die " $!";3 my %tmp;4 map { $tmp{$_}++ }5 map { chomp; split /\s|,|\.|:/,$_ } ;6 close MY;7 print "$_\t$tmp{$_}\n"8 foreach (sort { $tmp{$b} $tmp{$a} } keys %tmp);shell：sed 's/\n/\t/g' word.txt|sed 's/,/\t/g&# 阅读全文

posted @ 2013-12-13 10:43 三川阅读(343) 评论(0) 推荐(0) 编辑

大文件的排序处理（多路归并）

摘要：排序文件：1.txt：@12@vip.com#20120307/1BCDBCDBD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA...2.txt@14@vip.com#20120307/1AABCCCCD+AAAAAAAA@12@vip.com#20120307/1BCACACAD+AAAAAAAA...————————————————结果：@14@vip.com#20120307/1AABCCCCD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA@12@vip.com#20120307/1BCA 阅读全文

posted @ 2013-12-13 10:42 三川阅读(500) 评论(0) 推荐(0) 编辑

perl聚类

摘要： @12@vip.com#20120307/1BCDBCDBD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA@13@vip.com#20120307/1BCDBCDAA+AAAAAAAA@14@vip.com#20120307/1BCDAAABC+AAAAAAAA@15@vip.com#20120307/1BCDCCABC+AAAAAAAA@16@vip.com#20120307/1BCDBBABC+AAAAAAAA@12@vip.com#20120307/1BBDABBDA+AAAAAAAA...我想对上面的数据进行一个聚类，每四行是一段，假设阅读全文

posted @ 2013-12-13 10:40 三川阅读(473) 评论(0) 推荐(0) 编辑

awk、perl对多个文件取交集

摘要：我手头上有五个文件,他们的格式都是一样的,如果我想求他们的交集,并且如果1、2、3、6、7列都相同,则输出其文件名“\t"$0.我尝试用awk去做,可是结果并不齐全.应该怎么做呢?1.505.txtWINGS 1000 4000 3 3/18_707 2 3ANNY 4000 7000 4 4/18_707 3 4MOLLY 3000 4300 5 5/18_707 4 5TINAG 8000 10000 6 6/18_707 5 62.707.txtWINGS 1000 4000 3 3/20_505 2 3WINGS 5000 6000 8 8/20_505 3 3SANLY 2 阅读全文

posted @ 2013-12-13 10:38 三川阅读(1519) 评论(0) 推荐(0) 编辑