生物信息常用软件使用

1. 屏蔽载体序列
cross_match.manyreads reads.fna vector.seq -minmatch 10 -minscore 20 -screen > screen.out

2. SNP
分析
cross_match <seq1> -alignments -discrep_list > out

2.
聚类
    2.1 blastclust
blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F
use cpus: 4 
inputfile: proteins.fsa 
outputfile: cluster_60_80_complete.ssv  
protein identity: >60% 
coverage: >80%
if blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F -p F
then the input file is nucleotides, not proteins

  2.2 Uicluster
http://genome.uiowa.edu/pubsoft/software.html

3. est
去除 polyA
trimest

4.
去除尾部 NX
trimseq

5Cap3 组装

       -f 10 –o 21 –c 12
5 phrap
组装
Command:   phrap [sequence file] -new_ace -revise_greedy -forcelevel 0 -repeat_stringency 0.95 > phrap.out
Input: Fasta sequence & quality file in the same dir
         quality file = [sequcence file].qual
常用参数:
         -new_ace 

   生成ace文件,以便finish时可以用consed打开,调整组装结果。  finish、找SNP或者人工校验
         -forecelevel n    (n = 0-10, default = 0)
   在phrap连接contig的过程中控制参数的严格程度,0为最严格,10为最宽松。通常情况下可以用缺省值0。在数据量小、重复序列很少的数据集里,可以使用最宽松的参数10,减少overlap判断的假阴性,得到更完整的结果。在有较多重复序列的数据集里一定要将此参数控制到最严格以避免错拼。

        -revise_greedy 

   在greedy拼接之后,检查所有的overlap分值较低的区域,即“weak point”,将其断开并寻找整体打分更高的区域连接。能在一定程度上纠正一些组装错误。对于小数据,这个参数的效果不明显;对于较大数据量的拼接,这个参数会避免很多错误。这个参数在拼接重复序列较多的序列时会占用较长的时间。

       -shatter_greedy 

   在“weak point”处断开后并不尝试新的连接而是保留目前的结果。和revise_greedy一样,此参数具有纠错功能。
对于情况比较复杂的拼接,为了避免错误,可以使用此参数牺牲完整性保证较低的错误率。
       -repeat_stringency x (0<x<1, default = 0.95)
      
在拼接过程中根据overlap区域的相似度(即比对的identity)判断是否可以进行连接,x就是相似度的阈值。只有相似度高于x,才被phrap视作有效的overlap,可以进行拼接。对于有多个拷贝的重复序列存在的拼接,可以通过调整此参数来区分岀同一个重复序列在不同拷贝中的变异,从而在组装结果中区分出重复序列。问题在于这个参数需要根据实例进行调整,既要满足组装的完整性,又要达到区分重复序列的效果。可操作性不强。

 

Phrap 输出

*.contigs文件。

*.contigs.qual文件。

*.singlets 文件。

*.log文件和*.problems文件。

*.ace 文件。

*.view 文件-viewphrapview查看结果

标准屏幕输出,phrap > phrap.out

 

phrap 注意事项
 

数据量和数据性质
通常情况下reads数量不要超过15万。
如果覆盖度不是很高并且重复序列很少,phrap能完成50万以下的拼接。
如果覆盖度很高(几十以上)或者重复序列很多,phrap就很难处理了。

 

对于特殊数据的拼接策略
对于有重复序列的非finish项目,可以通过对序列的深度统计去掉高重复的reads,只保留uniq区的reads拼接(RePS方法)
同样在比较难拼接的finish项目中也可以使用这种策略来保证正确性,再通过其他方法补充gap

 

phrap.out文件包含了reads拼成contig的方式,包括位置,方向等。把这些信息提取出来存入contig.list文件

 

posted @ 2008-06-10 14:31  owomo  阅读(1810)  评论(0编辑  收藏  举报