【转录组入门】2：读文章得到测试数据

Posted on 2018-06-11 14:25 微凉charles 阅读(2072) 评论(0) 收藏举报

作业要求：

本流程学习的文章是：AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据地址：GSE81916

作业：看文章的method，记下所用软件和参数，理解GEO/SRA数据的数据存放形式

具体步骤

【1】找到数据地址：GSE81916

文献检索途径：谷歌学术、SCI-HUB

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

文章中提示数据地址是GSE81916

【2】在NCBI的GEO中下载数据

有很多种方法

方法1：NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件，打开该文件，查看SRR0000000标号是多少，然后

编写脚本，批量下载

# 编写脚本，批量下载

for i in `seq 56 62`            # 用的是反引号
do
    prefetch SRR35899${i}       # prefetch是sratoolkit软件的一个命令
done

方法2：NCBI---SRA数据库---搜索GSE81916---找到SRA---点击SRP075747---选择全部文件---send to ---file---format:Runinfo---creat file即生成了一个SraRunInfo.csv文件，然后根据文件中的下载地址，用wget命令，批量下载

$ tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割
$ head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其下载路径是第几列    
  10 downloas_path #返回结果显示是在第10列

#依次下载
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列，并利用wget进行下载，依次下载（推荐！）

#并行下载
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本，并行下载
$ bash download.sh  #运行脚本进行并行下载

方法3：NCBI---搜索GSE81916---点击BioProject---复制项目号Accession:PRJNA323422---进入网站SRA Run selecto[https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r”

---搜索 PRJNA323422---了解该项目数据的详细信息

15个样品的数据文件地址有规律：前面都一样，最后两位不同

写一个脚本，批量下载数据

脚本1：
for i in ` seq 56 62`;
do
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra  #也可以使用axel命令代替wget，axel比wget快一些
done

脚本2：
for I in `seq 56 62`;
do
    prefetch SRR35899${i}   #prefetch是sratoolkit工具的一个命令
done

# 运行脚本
$ bash sra_download.sh

理论知识

GEO数据库

GEO数据库隶属于NCBI，是最大最全面的基因表达数据库，主要是芯片和转录组测序数据。除储存数据外，也提供一些数据挖掘工具，因此利用好这个数据库，没有实验，没有自己的数据也能发好文章!

参考资料

转录组入门2-如何从NCBI下载高通量数据 | 分享自为知笔记
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-

HOPTOP转录组入门（二）读文献下数据-转录组-生信技能树
http://www.biotrainee.com/thread-1829-1-1.html

刷新页面返回顶部

微凉charles

导航

公告