FASTA/Q序列处理神器---seqkit

该软件对于处理FASTA/Q十分方便,省去自己编写脚本

  • 安装

1 conda install seqkit
  • 使用

 

  • 序列操作(seq)

 1 ## 取方向序列
 2 seqkit   seq  test.fa   -r  >  test_re.fa
 3 
 4 ## 取互补序列
 5 seqkit   seq   test.fa  -p  >  test_com.fa
 6 
 7 ## 取方向互补序列
 8 seqkit   seq   test.fa  -r  -p  > test_re_com.fa
 9 
10 ## RNA---> DNA序列
11 seqkit   seq  test.fa   rna2dna     >    test_dna.fa
12 
13 ## 小写字母输出
14 seqkit  seq  test.fa  -l  >  test_lower.fa
15 
16 ## 大写字母输出
17 seqkit   seq   test.fa  -u >  test_upper.fa
18 
19 ## 指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)
20 seqkit  seq  test.fa  -w  10  >  test_10.fa  (指定序列的长度为10)
21 
22 ## 将多行序列转换为一行序列
23 seqkit   seq  test.fa   -w   0   >  test_w.fa
24 
25 ## 只输出序列
26 seqkit   seq  test.fa  -s  -w 0 > test_seq.fa
27 
28 ## 将只输出的序列的,指定每行输出的碱基数
29 seqkit   seq  test_seq.fa  -s  -w 40 > test_seq40.fa

 

  • Fasta/q之间以及与tab格式互换 

1 ## 将fataq文件转化为fasta格式.
2 seqkit fq2fa   test.fq   -o   test.fa
3 
4 ## 将fasta格式转化为tab格式
5 seqkit  fx2tab  test.fa >  test_tab.fa (没有seq参数)

 

 

  • 序列信息统计

1 ## 序列碱基含量
2 seqkit  fx2tab  -l  -g  -n  -i  -H  test.fa
3 
4 ## 序列长度的整体分布统计
5 seqkit  stat  test.fa

 

 

  •  提取序列(grep) 

1 ## 给定基因名字,gene.txt; 从基因所对应的fasta文件提取序列; 
2 seqkit grep -f gene test.fa |seqkit seq -i >gene.fa
3 ## 参数
4 -i: 只输出ID,后面的信息不输出,比如长度等信息

 

 

-----END-----

关注下方公众号可获得更多精彩

posted @ 2020-03-17 22:21  斩毛毛  阅读(2557)  评论(0编辑  收藏  举报