TransDecoder寻找和预测ORF - 冰冻三丈

1. 软件下载和安装

下载网址：https://github.com/TransDecoder/TransDecoder/releases

在当前安装目录下输入make进行编译。

$ make

2. 使用

从fasta格式文件预测编码区：

Step 1: 提取最长的开放阅读框

$ TransDecoder.LongOrfs -t target_transcripts.fasta

Step 2: (可选),BlastP搜索和Pfam搜索

BlastP搜索：蛋白库搜索， Swissprot (快) or Uniref90 (慢 but more comprehensive)

$ blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6

Pfam搜索：肽或蛋白域预测，需要安装hmmer3和Pfam数据库

$ hmmscan --cpu 8 --domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep

Step 3: 将Blast和Pfam搜索结果整合到编码区域选择

$ TransDecoder.Predict -t target_transcripts.fasta --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6

3. 结果文件

longest_orfs.pep : 最长标准的ORF, 不管是否编码

longest_orfs.gff3 : 在转录本中发现的所有ORF的位置

longest_orfs.cds : 所有检测到ORF的核酸编码序列

longest_orfs.cds.top_500_longest : 前500个最长的ORF，用于训练一个编码序列的马尔科夫模型

hexamer.scores : 每个k-mer的对数似然得分 (coding/random)

longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和

longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF

longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置

transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列；所有较长ORF中的较短的候选序列已被移除。

transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。

transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置

transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件，最好用GenomeView或IGV来查看。

4.IGV查看

在目的转录组中查看ORF预测结果

$ java -jar $GENOMEVIEW/genomeview.jar transcripts.fasta transcripts.fasta.transdecoder.bed

在基因组中查看ORF

$ java -jar $GENOMEVIEW/genomeview.jar test.genome.fasta transcripts.bed transcripts.fasta.transdecoder.genome.bed

发表于 2018-02-01 14:58 冰冻三丈阅读(5528) 评论(0) 收藏举报