Bulk RNA-seq 转录组分析
Reference :
https://cloud.tencent.com/developer/article/1703051
https://blog.csdn.net/weixin_44452187/article/details/86646409
http://www.360doc.com/content/18/0715/20/19913717_770622175.shtml
https://blog.csdn.net/weixin_30885111/article/details/96585912
http://ccb.jhu.edu/software/hisat/manual.shtml
我们自己测得的数据:
交代一下需要准备的数据:
首先要有双端测序的.fa.qz文件,要用网上下好的gene注释文件,hisat2需要用到,具体如何下载,见上面两个链接
注:也可以利用.fa文件生成对应的索引文件,命令如下:
$HISAT_HOME/hisat-build $HISAT_HOME/example/reference/22_20-21M.fa 22_20-21M_hisat //构建索引的命令如上,跟bowtie一样我修改了一下 /home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build 22_20-21M.fa my_hisat_index //连日志都跟bowtie一模一样,哈哈,可以看到我们的这个参考fasta文件 22_20-21M.fa 就变成索引文件啦,索引还是很多的!
1. 先对数据进行质控
/home/glab/Shanyr/software/FastQC/fastqc -o ./20200910-Liver-D4/neg/ ./20200910-Liver-D4/neg/neg_R1.fq.gz ./20200910-Liver-D4/neg/neg_R2.fq.gz
2. 然后可以采用上面ref中的方法对数据进行质控,去掉认为是质量不好的reads
trim_galore:可以处理illumina,nextera3,smallRNA测序平台的双端和单端数据,包括去除adapter和低质量reads。 trim_galore的参数: trim_galore的参数在处理过程比较重要:
trim_galore -output_dir clean --paired --length 75 --quality 25 --stringency 5 seq_1.fasq.gz seq_2.fastq.gz
3. 比对,生成bam文件:“将RNA-seq的测序reads使用hisat2比对对参考基因租组”
/home/glab/Shanyr/software/hisat2-2.1.0/hisat2 -p 16 -x ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genome_tran -1 ../neg/neg_R1.fq.gz -2 ../neg/neg_R2.fq.gz -S ../neg/neg.sam
注: -1和-2分别表示双端测序的1个文件,后面跟的是文件路径,一定要注意 /data/RNAseq/mm10/genome文件的目录,genome这个不是文件夹,是index文件的前缀,我的mm10文件下并没有这个文件,如果不加genome就会发生如下报错:
4. htseq-count 生成计数矩阵
htseq-count -f sam -r name -s no -a 10 -t exon -i gene_name neg.sam ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genes.gtf > neg.txt