1. 软件下载和安装

  下载网址:https://github.com/TransDecoder/TransDecoder/releases

  在当前安装目录下输入make进行编译。

  $ make

2. 使用

    从fasta格式文件预测编码区:

   Step 1: 提取最长的开放阅读框

            $ TransDecoder.LongOrfs -t target_transcripts.fasta

   Step 2: (可选),BlastP搜索和Pfam搜索

            BlastP搜索:蛋白库搜索, Swissprot (快) or Uniref90 (慢 but more comprehensive)

                        $ blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6

            Pfam搜索:肽或蛋白域预测,需要安装hmmer3和Pfam数据库

                        $ hmmscan --cpu 8 --domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep

   Step 3:  将Blast和Pfam搜索结果整合到编码区域选择

            $ TransDecoder.Predict -t target_transcripts.fasta --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6           

3. 结果文件

   longest_orfs.pep : 最长标准的ORF, 不管是否编码

   longest_orfs.gff3 : 在转录本中发现的所有ORF的位置

   longest_orfs.cds : 所有检测到ORF的核酸编码序列

   longest_orfs.cds.top_500_longest : 前500个最长的ORF,用于训练一个编码序列的马尔科夫模型

   hexamer.scores : 每个k-mer的对数似然得分 (coding/random)

   longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和

   longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF

   longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置 

   

   transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列;所有较长ORF中的较短的候选序列已被移除。

   transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。

   transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置

   transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件,最好用GenomeView或IGV来查看。

4.IGV查看

   在目的转录组中查看ORF预测结果

           $ java -jar $GENOMEVIEW/genomeview.jar transcripts.fasta transcripts.fasta.transdecoder.bed

   在基因组中查看ORF

           $ java -jar $GENOMEVIEW/genomeview.jar test.genome.fasta transcripts.bed transcripts.fasta.transdecoder.genome.bed