基因组处理
去除基因组序列中的未定位的scaffold、Contig序列和线粒体序,主要针对NCBI提供refseq基因组序列,组装到染色体级别的物种基本都通用。将所有碱基统一成大写字母,并计算每条染色体长度,每80个字符换行。
处理脚本如下:
1 use strict; 2 open A,"$ARGV[0]"; 3 open B,">$ARGV[1]"; 4 open C,">$ARGV[2]"; 5 my $help=<<USAGE; 6 Usage: perl $0 genome.fa new.fa chrlen.list 7 8 USAGE 9 die "$help",unless(@ARGV==3); 10 11 $/=">"; 12 <A>; 13 my %chrlen; 14 while(<A>){ 15 chomp; 16 my @line=split /\n+/,$_; 17 my $seqName=shift @line; 18 my $chr=(split /\s+/,((split /,/,$seqName)[0]))[-1]; 19 next if $chr=~ /scaffold/; 20 next if $chr=~ /Contig/; 21 next if $chr=~ /mitochondrion/; 22 $chr="chr".$chr; 23 my $seq=join "",@line; 24 $seq=~s/\n//g; 25 $seq=uc($seq); 26 my $len=length($seq); 27 $chrlen{$chr}=$len; 28 $seq=~ s/(\w{80})/$1\n/g; 29 if($len % 80 == 0){ 30 print B ">$chr\n$seq"; 31 } 32 else{ 33 print B ">$chr\n$seq\n"; 34 } 35 print C "$chr\t$chrlen{$chr}\n"; 36 }
作者:天使不设防
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!