如何统计参考基因组的大小
以绵羊为例:
001、下载绵羊参考基因组
a、
b、
[root@PC1 test02]# wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz [root@PC1 test02]# gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz [root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
002、统计基因组的大小
a、awk命令实现
[root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna [root@PC1 test02]# awk '$0 !~ /^>/ {sum += length} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna 2628146905
b、samtools + awk实现
[root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna [root@PC1 test02]# samtools faidx GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna [root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai [root@PC1 test02]# awk '{sum += $2} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai 2628146905
003、统计N的数目
a、
[root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna [root@PC1 test02]# grep -v "^>" GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | grep -i -o "N" | wc -l 42000
b、
[root@PC1 test02]# ls GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna [root@PC1 test02]# awk '$0 !~ /^>/ {print gsub("N", "&")}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | awk '{sum += $0} END {print sum}' 42000
。
分类:
生信
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2021-06-24 linux系统中查看系统内核、发行版本信息
2021-06-24 linux系统中如何将当前目录下的文件从大到小排序和从小到大排序
2020-06-24 linux 系统 如何删除各种形式的空行