基因组索引文件xxx.fai格式

 

001、由fasta文件生成fai文件

root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa
root@DESKTOP-1N42TVH:/home/test5/test# samtools faidx all.con.fa
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai

 

002、fai文件格式

root@DESKTOP-1N42TVH:/home/test5/test# head -n 5 all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51

 

第一列染色体:

复制代码
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai
root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51
Chr6    31248787        184704821       50      51
Chr7    29697621        216578590       50      51
Chr8    28443022        246870170       50      51
Chr9    23012720        275882059       50      51
Chr10   23207287        299355041       50      51
Chr11   29021106        323026481       50      51
Chr12   27531856        352628017       50      51
ChrUn   633585  380710518       60      61
ChrSy   592136  381354670       60      61
root@DESKTOP-1N42TVH:/home/test5/test# grep "^>" all.con.fa
>Chr1
>Chr2
>Chr3
>Chr4
>Chr5
>Chr6
>Chr7
>Chr8
>Chr9
>Chr10
>Chr11
>Chr12
>ChrUn
>ChrSy
复制代码

 

第二列:每条染色体上的碱基数目:

复制代码
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai
root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51
Chr6    31248787        184704821       50      51
Chr7    29697621        216578590       50      51
Chr8    28443022        246870170       50      51
Chr9    23012720        275882059       50      51
Chr10   23207287        299355041       50      51
Chr11   29021106        323026481       50      51
Chr12   27531856        352628017       50      51
ChrUn   633585  380710518       60      61
ChrSy   592136  381354670       60      61
root@DESKTOP-1N42TVH:/home/test5/test# awk '{if($0 ~ /^>/) { print a, sum; a = $0; sum = 0} else {sum += length($0)}} END {print a, sum}' all.con.fa

>Chr1 43270923
>Chr2 35937250
>Chr3 36413819
>Chr4 35502694
>Chr5 29958434
>Chr6 31248787
>Chr7 29697621
>Chr8 28443022
>Chr9 23012720
>Chr10 23207287
>Chr11 29021106
>Chr12 27531856
>ChrUn 633585
>ChrSy 592136
复制代码

 

第三列:每条染色体之前的所有字符数

复制代码
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai
root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51
Chr6    31248787        184704821       50      51
Chr7    29697621        216578590       50      51
Chr8    28443022        246870170       50      51
Chr9    23012720        275882059       50      51
Chr10   23207287        299355041       50      51
Chr11   29021106        323026481       50      51
Chr12   27531856        352628017       50      51
ChrUn   633585  380710518       60      61
ChrSy   592136  381354670       60      61
root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do sed -n "0,/^>$i$/p" all.con.fa | wc -c; done
6
44136354
80792356
117934458
154147212
184704821
216578590
246870170
275882059
299355041
323026481
352628017
380710518
381354670
复制代码

 

第四列、每条染色体上每一行上的碱基数目

复制代码
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai
root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51
Chr6    31248787        184704821       50      51
Chr7    29697621        216578590       50      51
Chr8    28443022        246870170       50      51
Chr9    23012720        275882059       50      51
Chr10   23207287        299355041       50      51
Chr11   29021106        323026481       50      51
Chr12   27531856        352628017       50      51
ChrUn   633585  380710518       60      61
ChrSy   592136  381354670       60      61
root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | awk '{print length($0)}'; done
50
50
50
50
50
50
50
50
50
50
50
50
60
60
复制代码

 

第五列、每条染色体上每一行上的碱基所占的字节数目

复制代码
root@DESKTOP-1N42TVH:/home/test5/test# ls
all.con.fa  all.con.fa.fai
root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai
Chr1    43270923        6       50      51
Chr2    35937250        44136354        50      51
Chr3    36413819        80792356        50      51
Chr4    35502694        117934458       50      51
Chr5    29958434        154147212       50      51
Chr6    31248787        184704821       50      51
Chr7    29697621        216578590       50      51
Chr8    28443022        246870170       50      51
Chr9    23012720        275882059       50      51
Chr10   23207287        299355041       50      51
Chr11   29021106        323026481       50      51
Chr12   27531856        352628017       50      51
ChrUn   633585  380710518       60      61
ChrSy   592136  381354670       60      61
root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | wc -c; done          51
51
51
51
51
51
51
51
51
51
51
51
61
61
复制代码

 

posted @   小鲨鱼2018  阅读(893)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示