2013年12月13日
摘要: 统计这样一个文本:1@FLID=rs2151655; status=known; support=C30; mut_type=Hom; region=Intergenic; function=5-UTR; mut_name=c.*2978C->T/T;flank5=CTGCC.CCCAA;flank5=CAGCC.GTGGT;2@DLID=snp1;support=A249; mut_type=Hom; region=Gene; NM_ID=NM_005957; flank5=cacca.ttgtt;function=5-UTR; mut_name=c.*2978C->T/T; f 阅读全文
posted @ 2013-12-13 10:47 三川 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 像下面这种文本,我想以第一列作为类,比如都是以*阿拉伯数字开头后面接字母的,归为一类,如*1和*1XN、*1A是一类,*2和*2A、*2D是一类,*1是种类,*1XN、*1A是子类(如果没有子类则不理会),子类每一行和它的总类比较,判断每一列和总类对应列的差异,如果不同则输出该列的title,并且输出不同的情况。比如*1的第二列是C,它的子类*1XN和*1A的第二列分别是C和A,那么就在对应位置输出位于首行的title:rs769258:C>A;------------------------------------------------------------------------ 阅读全文
posted @ 2013-12-13 10:46 三川 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 生物信息学中通常用c.110A->G表示突变位点,要转回绝对坐标时,通常用c.110匹配到refgene。如果是下面的数据:OTCNM_0005318.7MbOTCNM_0005319095ASS1NM_000050c.1127-9_1185dup67(describedCPS1NM_00112263335RYR1NM_00054027NAT1NM_0011601756G6PDNM_000402c.1084_1101delCTGAACGAGCGCAAGGCCNAT2NM_000015c.857G>A你必须转换成:OTCNM_0005318.7OTCNM_0005319095ASS1 阅读全文
posted @ 2013-12-13 10:45 三川 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 我有一个程序 test.pl要求输入两个参数,所有的参数存在于另一个文件的第二第三列,我怎么才能实现让文本每行的第2、3列作为参数调用这个程序呢?比如参数文本是:1 a.txt b.txt2 a.txt c.txt想实现perl test.pl a.txt b.txtperl test.pl a.txt c.txt1 --------------------------------------------------------------------------------------2 awk '{system("perl test.pl "$2" & 阅读全文
posted @ 2013-12-13 10:44 三川 阅读(244) 评论(0) 推荐(0) 编辑
摘要: perl:1 #!/usr/bin/perl -w2 open(MY,"word.txt")or die " $!";3 my %tmp;4 map { $tmp{$_}++ }5 map { chomp; split /\s|,|\.|:/,$_ } ;6 close MY;7 print "$_\t$tmp{$_}\n"8 foreach (sort { $tmp{$b} $tmp{$a} } keys %tmp);shell:sed 's/\n/\t/g' word.txt|sed 's/,/\t/g&# 阅读全文
posted @ 2013-12-13 10:43 三川 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 排序文件:1.txt:@12@vip.com#20120307/1BCDBCDBD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA...2.txt@14@vip.com#20120307/1AABCCCCD+AAAAAAAA@12@vip.com#20120307/1BCACACAD+AAAAAAAA...————————————————结果:@14@vip.com#20120307/1AABCCCCD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA@12@vip.com#20120307/1BCA 阅读全文
posted @ 2013-12-13 10:42 三川 阅读(500) 评论(0) 推荐(0) 编辑
摘要: @12@vip.com#20120307/1BCDBCDBD+AAAAAAAA@18@vip.com#20120307/1BBDACCDA+AAAAAAAA@13@vip.com#20120307/1BCDBCDAA+AAAAAAAA@14@vip.com#20120307/1BCDAAABC+AAAAAAAA@15@vip.com#20120307/1BCDCCABC+AAAAAAAA@16@vip.com#20120307/1BCDBBABC+AAAAAAAA@12@vip.com#20120307/1BBDABBDA+AAAAAAAA...我想对上面的数据进行一个聚类,每四行是一段,假设 阅读全文
posted @ 2013-12-13 10:40 三川 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 我手头上有五个文件,他们的格式都是一样的,如果我想求他们的交集,并且如果1、2、3、6、7列都相同,则输出其文件名“\t"$0.我尝试用awk去做,可是结果并不齐全.应该怎么做呢?1.505.txtWINGS 1000 4000 3 3/18_707 2 3ANNY 4000 7000 4 4/18_707 3 4MOLLY 3000 4300 5 5/18_707 4 5TINAG 8000 10000 6 6/18_707 5 62.707.txtWINGS 1000 4000 3 3/20_505 2 3WINGS 5000 6000 8 8/20_505 3 3SANLY 2 阅读全文
posted @ 2013-12-13 10:38 三川 阅读(1519) 评论(0) 推荐(0) 编辑