如何统计参考基因组的大小

 

以绵羊为例:

 

001、下载绵羊参考基因组

a、

 

b、

 

[root@PC1 test02]# wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna

 

002、统计基因组的大小

a、awk命令实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# awk '$0 !~ /^>/ {sum += length} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
2628146905

 

b、samtools + awk实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# samtools faidx GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
[root@PC1 test02]# awk '{sum += $2} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
2628146905

 

003、统计N的数目

a、

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# grep -v "^>" GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | grep -i -o "N" | wc -l
42000

 

b、

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# awk '$0 !~ /^>/ {print gsub("N", "&")}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | awk '{sum += $0} END {print sum}'
42000

 

posted @   小鲨鱼2018  阅读(166)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2021-06-24 linux系统中查看系统内核、发行版本信息
2021-06-24 linux系统中如何将当前目录下的文件从大到小排序和从小到大排序
2020-06-24 linux 系统 如何删除各种形式的空行
点击右上角即可分享
微信分享提示