如何通过SRA Tools处理从NCBI获得的SRA数据

1.安装SRA Tools

通过SRA Toolkit可以方便的从NCBI下载SRA数据，但是速度较慢，Aspera虽然快，但是难点在于找NCBI的源文件地址，而且SRA Toolkit好像可以调用Aspera（虽然还没找到方法）
具体操作可以参考这个帖子，下载安装很容易，主要是配置环境要配置好，不然用不了
https://blog.csdn.net/m0_69574256/article/details/134645370

2.下载SRA数据

从NCBI网站上进SAR，找到自己感兴趣的数据

选择sent to

然后选择Run selector，然后GO，他会输出一个SRR_Acc_List.txt，这个文件里面包含了你想要的数据的编号，之后可以通过这个文件批量下载，或者通过里面的编号一个一个下，里面的内容都是SRRxxxxxx

想要下载这些数据时，可以参考这个帖子
https://blog.csdn.net/m0_69574256/article/details/134645370
主要操作就是：
prefetch SRRXXXXXX（这里是你想要下的数据的标号），这个命令是下载这个SAR文件

这样就是下载好了
对于下载好的SRA文件来说，就下来就是提取数据了，使用如下命令可以提取数据：
fastq-dump --split-3 --gzip SRRxxxxxxx.sra
fastq-dump：提取内容的命令，提取fastq, fastq-dump这步很容易出错，一定要注意原始数据的类型是单端测序还是双端测序，单端测序和双端测序处理方法不同
--split-3：这个要着重说一下，因为单端测序和双端测序是不一样的，双端测序不要直接提取，将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
关于遇到的Rejected XXXXX READS because of filtering out non-biological READS就是因为原来是SE数据,但是用--split-3当作PE数据处理,出现的问题. 看起来好像有问题,但是对后续结果分析没有太多影响.