1. 软件下载和安装
下载网址:https://github.com/TransDecoder/TransDecoder/releases
在当前安装目录下输入make进行编译。
$ make
2. 使用
从fasta格式文件预测编码区:
Step 1: 提取最长的开放阅读框
$ TransDecoder.LongOrfs -t target_transcripts.fasta
Step 2: (可选),BlastP搜索和Pfam搜索
BlastP搜索:蛋白库搜索, Swissprot (快) or Uniref90 (慢 but more comprehensive)
$ blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6
Pfam搜索:肽或蛋白域预测,需要安装hmmer3和Pfam数据库
$ hmmscan --cpu 8 --domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep
Step 3: 将Blast和Pfam搜索结果整合到编码区域选择
$ TransDecoder.Predict -t target_transcripts.fasta --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6
3. 结果文件
longest_orfs.pep : 最长标准的ORF, 不管是否编码
longest_orfs.gff3 : 在转录本中发现的所有ORF的位置
longest_orfs.cds : 所有检测到ORF的核酸编码序列
longest_orfs.cds.top_500_longest : 前500个最长的ORF,用于训练一个编码序列的马尔科夫模型
hexamer.scores : 每个k-mer的对数似然得分 (coding/random)
longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和
longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF
longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置
transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列;所有较长ORF中的较短的候选序列已被移除。
transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。
transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置
transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件,最好用GenomeView或IGV来查看。
4.IGV查看
在目的转录组中查看ORF预测结果
$ java -jar $GENOMEVIEW/genomeview.jar transcripts.fasta transcripts.fasta.transdecoder.bed
在基因组中查看ORF
$ java -jar $GENOMEVIEW/genomeview.jar test.genome.fasta transcripts.bed transcripts.fasta.transdecoder.genome.bed