seqkit 软件的安装及使用

001、安装

002、解压、调用测试

(base) [root@pc1 Seqkit]# ls     ## 安装包
seqkit_linux_amd64.tar.gz
(base) [root@pc1 Seqkit]# tar -xzvf seqkit_linux_amd64.tar.gz    ## 解压
seqkit
(base) [root@pc1 Seqkit]# ls
seqkit  seqkit_linux_amd64.tar.gz
(base) [root@pc1 Seqkit]# pwd
/home/software/Seqkit
(base) [root@pc1 Seqkit]# echo "export PATH=$PATH:/home/software/Seqkit" >> ~/.bashrc  ## 添加环境变量
(base) [root@pc1 Seqkit]# source ~/.bashrc                  ## 加载环境变量
(base) [root@pc1 Seqkit]# seqkit --version |head            ## 调用测试
Error: unknown flag: --version
Usage:
  seqkit [command]

Available Commands:
  amplicon        extract amplicon (or specific region around it) via primer(s)
  bam             monitoring and online histograms of BAM record features

003、 -p参数取互补序列

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna       ## 测试fasta序列
>chr1
ccctaNNNaaccctaaacccta
>chr2
GGACGATGAATGGGCGATGAAAA
[root@pc1 test1]# seqkit seq test.fna -p -t DNA > result.fna         ## 取互补序列
[INFO] when flag -t (--seq-type) given, flag -v (--validate-seq) is automatically switched on
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna        ## 互补序列结果
>chr1
gggatNNNttgggatttgggat
>chr2
CCTGCTACTTACCCGCTACTTTT

004、-r 取反向序列

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna           ## 测试fasta
>chr1
ccctaNNNaaccctaaacccta
>chr2
GGACGATGAATGGGCGATGAAAA
[root@pc1 test1]# seqkit seq test.fna -r > result.fna      ## 取反向序列
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna         ## 结果文件
>chr1
atcccaaatcccaaNNNatccc
>chr2
AAAAGTAGCGGGTAAGTAGCAGG

005、-r -p取反向互补序列

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna           ## 测试数据
>chr1
ccctaNNNaaccctaaacccta
>chr2
GGACGATGAATGGGCGATGAAAA
[root@pc1 test1]# seqkit seq -r -p -t DNA test.fna > result.fna    ## 取反向互补序列
[INFO] when flag -t (--seq-type) given, flag -v (--validate-seq) is automatically switched on
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna      ## 结果文件
>chr1
tagggtttagggttNNNtaggg
>chr2
TTTTCATCGCCCATTCATCGTCC

006、DNA转换为RNA序列

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna             ## 测试fasta
>chr1
ccctaNNNaaccctaaacccta
>chr2
GGACGATGAATGGGCGATGAAAA
[root@pc1 test1]# seqkit seq test.fna --dna2rna > result.fna     ## DNA序列转换为RNA序列                      
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna         ## 转换结果
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA

007、RNA序列转换为DNA序列

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna       ## 测试数据
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna --rna2dna > result.fna     ## rna转换为dna
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna       ## 结果文件
>chr1
ccctaNNNaaccctaaacccta
>chr2
GGACGATGAATGGGCGATGAAAA

008、以小写字母的形式输出

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna       ## 测试数据
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -l > result.fna   ## 小写字母形式输出
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna     ## 结果文件
>chr1
cccuannnaacccuaaacccua
>chr2
ggacgaugaaugggcgaugaaaa

009、序列以大写字母的形式输出

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna              ## 测试数据
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -u > result.fa    ## 转换为大写字母
[root@pc1 test1]# ls
result.fa  test.fna
[root@pc1 test1]# cat result.fa                   ## 结果文件
>chr1
CCCUANNNAACCCUAAACCCUA
>chr2
GGACGAUGAAUGGGCGAUGAAAA

010、每行的碱基以指定的数目输出

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna         ## 测试数据
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -w 10 > result.fa    ## 每行转换为10个碱基
[root@pc1 test1]# ls
result.fa  test.fna
[root@pc1 test1]# cat result.fa     ## 结果文件
>chr1
cccuaNNNaa
cccuaaaccc
ua
>chr2
GGACGAUGAA
UGGGCGAUGA
AAA

011、仅提取序列文件

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna        ## 测试fasta
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -s -w 0 > result.fa    ## 仅提取序列文件
[root@pc1 test1]# ls
result.fa  test.fna
[root@pc1 test1]# cat result.fa       ## 结果文件
cccuaNNNaacccuaaacccua
GGACGAUGAAUGGGCGAUGAAAA

012、输出颜色

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna       ## 测试文件
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -k > result.fna    ## 输出颜色
[root@pc1 test1]# ls
result.fna  test.fna
[root@pc1 test1]# cat result.fna      ## 结果
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA

013、输出序列全名

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna            ## 测试文件
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -n    ## 输出全名
chr1
chr2

014、

[root@pc1 test1]# ls
test.fna
[root@pc1 test1]# cat test.fna
>chr1
cccuaNNNaacccuaaacccua
>chr2
GGACGAUGAAUGGGCGAUGAAAA
[root@pc1 test1]# seqkit seq test.fna -i -n
chr1
chr2

015、提取碱基的质量值

(base) [root@pc1 test1]# ls
SRR1770413_1.fastq
(base) [root@pc1 test1]# seqkit seq SRR1770413_1.fastq -q > qc_result.fa     ## 提取碱基质量值
(base) [root@pc1 test1]# awk 'NR % 4 == 0' SRR1770413_1.fastq > qc2_result.fa   ## 提取碱基质量值
(base) [root@pc1 test1]# ls
qc2_result.fa  qc_result.fa  SRR1770413_1.fastq
(base) [root@pc1 test1]# md5sum qc*             ## 比较结果
f3a2e04731d9250f213a69a08cae6684  qc2_result.fa
f3a2e04731d9250f213a69a08cae6684  qc_result.fa

016、去除序列gap

(base) [root@pc1 test1]# ls
test.fna
(base) [root@pc1 test1]# echo -e ">seq\nACGT-actgc-ACC"       ## 原始序列
>seq
ACGT-actgc-ACC
(base) [root@pc1 test1]# echo -e ">seq\nACGT-actgc-ACC" | seqkit seq -g -u    ## 去除序列gap
>seq
ACGTACTGCACC