基因组索引文件xxx.fai格式
001、由fasta文件生成fai文件
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa root@DESKTOP-1N42TVH:/home/test5/test# samtools faidx all.con.fa root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai
002、fai文件格式
root@DESKTOP-1N42TVH:/home/test5/test# head -n 5 all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51
第一列染色体:
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# grep "^>" all.con.fa >Chr1 >Chr2 >Chr3 >Chr4 >Chr5 >Chr6 >Chr7 >Chr8 >Chr9 >Chr10 >Chr11 >Chr12 >ChrUn >ChrSy
第二列:每条染色体上的碱基数目:
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# awk '{if($0 ~ /^>/) { print a, sum; a = $0; sum = 0} else {sum += length($0)}} END {print a, sum}' all.con.fa >Chr1 43270923 >Chr2 35937250 >Chr3 36413819 >Chr4 35502694 >Chr5 29958434 >Chr6 31248787 >Chr7 29697621 >Chr8 28443022 >Chr9 23012720 >Chr10 23207287 >Chr11 29021106 >Chr12 27531856 >ChrUn 633585 >ChrSy 592136
第三列:每条染色体之前的所有字符数
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do sed -n "0,/^>$i$/p" all.con.fa | wc -c; done 6 44136354 80792356 117934458 154147212 184704821 216578590 246870170 275882059 299355041 323026481 352628017 380710518 381354670
第四列、每条染色体上每一行上的碱基数目
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | awk '{print length($0)}'; done 50 50 50 50 50 50 50 50 50 50 50 50 60 60
第五列、每条染色体上每一行上的碱基所占的字节数目
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | wc -c; done 51 51 51 51 51 51 51 51 51 51 51 51 61 61
分类:
生物统计
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律