3.测序SRA数据下载与转换
一、官方下载工具Sratoolkit安装
推荐使用conda直接安装,避免配置环境的麻烦,但sratoolkit在conda镜像中的包名为sra-tools
1 conda install -y -c bioconda sra-tools
二、SRA文件下载地址获取
1.NCBI GEO数据库下载地址
1 https://www.ncbi.nlm.nih.gov/geo/
2.输入GEO Accession(如GSE52778),点击搜索,找到测序SRA文件
3. 下载Accession List:一个txt文件包含所有的测序样本名称,均对应于上图左下角的Run
三、数据下载
使用sratoolkit提供的prefetch工具下载,官方文档中说明prefetch能直接根据txt文件下载,但不晓得哪边出毛病报错了,自己编写循环下载,脚本如下:
1 #!/bin/bash 2 3 #id.txt即为下载的Accession List 4 5 for i in $(cat id.txt) 6 do 7 echo "正在下载文件".$i 8 prefetch $i 9 done 10 echo "文件下载完毕!!" 11 12 #提取下载的文件夹中的.sra文件并删除源文件夹 13 14 pwd=$(pwd) 15 for i in $(ls) 16 do 17 new_pwd="$pwd/$i" 18 if [ -d $new_pwd ];then 19 mv $new_pwd/* $pwd 20 rm -rf $new_pwd 21 fi 22 done
四、数据转换
使用sratoolkit提供的fastq-dump将下载的SRA数据转换成fastq格式
1 #!/bin/bash 2 for i in SRR* 3 do 4 fastq-dump --gzip --split-3 -O './fastq' $i 5 done
参数说明:
1 --gzip 生成压缩的gz格式fastq文件,以节省磁盘空间 2 -O 输出文件路径 3 --split-files 对read进行拆分,默认不对reads进行拆分, 对于单端测序(SE)没有出现问题.但是对于双端测序(PE)而言,就会把原本的两条reads合并成一个 4 --split-spot: 将双端测序分为两份,但是都放在同一个文件中 5 --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃 6 --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步