linux中awk命令对fastq格式的碱基质量体系进行判断

 

001、

复制代码
[root@pc1 test]# ls
a.fastq
[root@pc1 test]# head -n 4 a.fastq        ## 测试fastq格式数据
@SRR12342886.1 1/1
TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTGCTTTTTCTAAAC
+
FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:F
[root@pc1 test]# head -n 12 a.fastq | awk '{if(NR%4==0) printf("%s",$0);}' | od -A n -t u1 -v | awk 'BEGIN{min=100;max=0;} {for(i=1;i<=NF;i++) {if($i>max) max=$i; if($i<min) min=$i;}} END {if(max<=126 && min<59) print "Phred33"; else if(max>73 && min>=64) print "Phred64"; else if(min>=59 && min<64 && max>73) print "Solexa64"; else print "Unknown score encoding";}'
Phred33                   ## 判断程序,逻辑是将碱基质量值转换为数值,然后对质量值数值的区间进行计算,利用碱基质量的范围进行判断
复制代码

 

 

。 

参考:https://mp.weixin.qq.com/s?__biz=Mzg4NzA4MzUxOA==&mid=2247486721&idx=1&sn=c268b78f600d9acbe25831a62a47df12&chksm=cf8e9590f8f91c861157fe3dcbc8439826ba8134f7de67515de23409d746c6d34892695fcfee&cur_album_id=3101294931740213257&scene=189#wechat_redirect

 

posted @   小鲨鱼2018  阅读(35)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2022-09-30 linux 中如何升级glibc 版本
2022-09-30 linux中查看GLIBC版本
2022-09-30 python3 ./gen_ldc_version_info.py > utils/ldc_version_info_.d make: *** [utils/ldc_version_info_.d] Error 1
2022-09-30 centos7中升级make到最新版本
2022-09-30 centos7如何升级GCC编辑器、G++编译器, 安装多个版本及切换
2021-09-30 c primer plus 12 编程练习
2020-09-30 beagle 填充 Exception in thread "main" java.lang.IllegalArgumentException: NaN
点击右上角即可分享
微信分享提示