linux 中shell脚本统计参考基因组中碱基的总数目

 

1、方法1

root@DESKTOP-1N42TVH:/home/test# ls
hg38.fa
root@DESKTOP-1N42TVH:/home/test# grep -v "^>" hg38.fa | awk 'BEGIN{sum = 0} {sum += length($0)} END {print sum}'
3209286105

 

2、方法2

root@DESKTOP-1N42TVH:/home/test# ls
hg38.fa
root@DESKTOP-1N42TVH:/home/test# grep -v "^>" hg38.fa | sed 's/./&\n/g' | awk 'NF' | wc -l     ## 非常耗时
3209286105

 

约32亿个碱基, 这说明参考基因组是单链?

posted @ 2022-04-26 17:10  小鲨鱼2018  阅读(247)  评论(0编辑  收藏  举报