作业要求:
本流程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
数据地址:GSE81916
作业:看文章的method,记下所用软件和参数,理解GEO/SRA数据的数据存放形式
具体步骤
【1】找到数据地址:GSE81916
文献检索途径:谷歌学术、SCI-HUB
AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
文章中提示数据地址是GSE81916
【2】在NCBI的GEO中下载数据
有很多种方法
方法1:NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件,打开该文件,查看SRR0000000标号是多少,然后
编写脚本,批量下载
# 编写脚本,批量下载 for i in `seq 56 62` # 用的是反引号 do prefetch SRR35899${i} # prefetch是sratoolkit软件的一个命令 done
方法2:NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件,然后根据文件中的下载地址,用wget命令,批量下载
$ tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割 $ head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其下载路径是第几列 10 downloas_path #返回结果显示是在第10列 #依次下载 $ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,并利用wget进行下载,依次下载(推荐!) #并行下载 $ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本,并行下载 $ bash download.sh #运行脚本进行并行下载
方法3:NCBI---搜索GSE81916---点击BioProject---复制项目号Accession:PRJNA323422---进入网站SRA Run selecto[https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r”
---搜索 PRJNA323422---了解该项目数据的详细信息
15个样品的数据文件地址有规律:前面都一样,最后两位不同
写一个脚本,批量下载数据
脚本1: for i in ` seq 56 62`; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra #也可以使用axel命令代替wget,axel比wget快一些 done 脚本2: for I in `seq 56 62`; do prefetch SRR35899${i} #prefetch是sratoolkit工具的一个命令 done # 运行脚本 $ bash sra_download.sh
理论知识
GEO数据库
GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!
参考资料
转录组入门2-如何从NCBI下载高通量数据 | 分享自为知笔记
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
HOPTOP转录组入门(二)读文献下数据-转录组-生信技能树
http://www.biotrainee.com/thread-1829-1-1.html