Linux中实现根据scaffold名称从fasta文件中提取数据(scaffold名称长)

 

001、

复制代码
(base) [sy20213040737@admin2 test]$ ls
chr.list  test.fa
(base) [sy20213040737@admin2 test]$ cat test.fa          ## 测试fasta文件
>chr1 xxxx
aaaabbb
cccccddd
>chrx eee jj
aaaaaabbbbbc
cccccdddd
>chr3 iii rr
aaaaaaaaa
aaaaaaaaa
bbbbbbbb
>chry errrrr
aaaaaaaabbbb
bbbbbbbbb
>chrk iiiii
aaaaaaaaaaaaaaa
aaaaaaa
(base) [sy20213040737@admin2 test]$ cat chr.list          ## 提取的scaffold名称
>chr1 xxxx
>chr3 iii rr
(base) [sy20213040737@admin2 test]$ awk '{if(NR == FNR){ay1[$1]} else {if($0 ~ /^>/ && $1 in ay1){pass = 0} else if($0 ~ /^>/ && !($1 in ay1)) {pass = 1}; if(pass == 0) {print $0}}}' chr.list test.fa     ## 提取程序
>chr1 xxxx
aaaabbb
cccccddd
>chr3 iii rr
aaaaaaaaa
aaaaaaaaa
bbbbbbbb
复制代码

 。

 

posted @   小鲨鱼2018  阅读(6)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2022-12-01 linux中指定以指定的单位显示文件的大小
2022-12-01 linux 中如何统计指定目录下一类文件的总的大小
2022-12-01 gatk 实现对vcf文件的合并
2022-12-01 AlmaLinux 9.1中安装java11
2022-12-01 GitHub上的三个不同的压缩包都有什么关系
2022-12-01 rar: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.21' not found (required by rar)
2022-12-01 linux 中查看 GLIBCXX的版本
点击右上角即可分享
微信分享提示