转:cufflinks之cuffmerge,cuffdiff
转自:http://yangl.net/2016/06/03/cufflinks/
1. Cuffmerge简介
Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf。以利于用Cuffdiff来分析基因差异表达。
2. 使用方法
$ cuffmerge [options]* 输入文件为一个文本文件,是包含着GTF文件路径的list。常用例子: $ cuffmerge -o ./merged_asm -p 8 assembly_list.txt
3. 使用参数
-h | --help
-o default: ./merged_asm 将结果输出至该文件夹。
-g | --ref-gtf 将该reference GTF一起融合到最终结果中。
-p | --num-threads defautl: 1 使用的CPU线程数
-s | --ref-sequence / 该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是 一个fasta文件,则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来 帮助对transfrags分类,并排除repeats。比如transcripts包含一些小写碱基的将归类 到repeats.
4. Cuffmerge输出结果
输出的结果文件默认为 /merged.gt
1. Cuffdiff简介
用于寻找转录子表达的显著性差异。
2. Cuffdiff使用方法
cuffdiff主要是发现转录本表达,剪接,启动子使用的明显变化。
cuffdiff [options]* … [sampleN.sam_replicate1.sam[,…,sample2_replicateM.sam]]
$ cuffdiff [options]* ...[sampleN_1.sam[,...,sampleN_M.sam]] 其中transcripts.gtf是由cufflinks,cuffcompare,cuffmerge所生成的文件,或是由其它程序生成的。一个样本有多个replicate,用逗号隔开。sample多于一个时,cuffdiff将比较samples间的基因表达的差异性。 一个常用例子: $ cuffdiff --lables lable1,lable2 -p 8 --time-series --multi-read-correct --library-type fr-unstranded --poisson-dispersion transcripts.gtf sample1.sam sample2.sam
cuffdiff接受bam/sam或cuffquant的CXB文件,同时也可以接受bam与sam的混合文件,不能接受bam/sam和CXB的混合文件。
3. 使用参数
-h | --help
-o | --output-dir default: ./ 输出的文件夹目录。
-L | --lables default: q1,q2,...qN 给每个sample一个样品名或者一个环境条件一个lable
-p | --num-threads default: 1 使用的CPU线程数
-T | --time-series 让Cuffdiff来按样品顺序来比对样品,而不是对所有的samples都进行两两比对。即第二个 SAM和第一个SAM比;第三个SAM和第二个SAM比;第四个SAM和第三个SAM比...
-N | --upper-quartile-form 使用75%分为数的值来代替总的值(比对到单一位点的fragments的数值),作normalize。 这样有利于在低丰度基因和转录子中寻找差异基因。
--total-hits-norm Cufflinks在计算FPKM时,算入所有的fragments和比对上的reads。和下一个参数对立。 默认不激活该参数。
--compatible-hits-norm Cufflinks在计算FPKM时,只针对和reference transcripts兼容的fragments以及 比对上的reads。该参数默认激活,使用该参数可以降低核糖体rna的reads对基因表达的干扰。
-b | --frag-bias-correct(一般是genome.fa) 提供一个fasta文件来指导Cufflinks运行新的bias detection and correction algorithm。这样能明显提高转录子丰度计算的精确性。
-u | --multi-read-correct 让Cufflinks来做initial estimation步骤,从而更精确衡量比对到genome多个位点 的reads。
-c | --min-alignment-count default: 10 如果比对到某一个位点的fragments数目少于该值,则不做该位点的显著性分析。认为该位点的表达量没有显著性差异。
-M | --mask-file 提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该文件中常常是rRNA的注释,也可以包含线立体和其它希望忽略的transcripts的注释。将这些不需要的RNA去除后,对计算mRNA的表达量是有利的。
-FDR default: 0.05 允许的false