YUANya

导航

 

(组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据。

de Bruijn graph algorithm算法????

readscontig :多个reads比对,比对后reads之间重叠(overlap)区,拼接获得的序列称为Contig

contig到scaffold:mate-pair得到的用于确立位置的短readsinsert组合,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口得到一个完整的scafflod。

(组装1).assembled the short reads:得到pair-endreadsoverlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知)

因为长序列会积累错误序列的overlap,所以短序列排出来准确性高

测序深度x):指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值

39-fold coverage short-reads:测试深度为39x总数据/基因长度

初次判定的总数据量可能估计基因组大小的100倍,因为物理上的因素(部分序列被酶降解等)最后得到73X

覆盖度%):指测序获得的序列占整个基因组的比例,测序depthcoverage成倒数关系

组装2join the contigs into scaffolds在可能为gap的区域添N,将insert一端mapping独立的contig;一端定位gap区域并且mapping unmapping endmate-pair)。这样就得到了scaffold140kb);因为在close了所有能closegap之后,仍有2.4%gap(因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列(原因一:因为串联重复序列很难用现有的匹配算法拼接策略克服)。 具有较高的单元标识和大于序列读取长度的长度,无法与当前数据进行组装。)(原因二:assembly丢失,因为狗与人序列的相似性,狗的串联重复序列占比少)

estimated intra-scaffold gaps:就是未测得的添N

什么是串联重复 tandem repeats?:短序列重复同时串联起来。

食肉类特异性转座元件为什么测不出来?转座子是存在于染色体DNA上可自主复制和位移的基本单位,因为它能够自主复制和位移,所以同串联重复序列难以测得的理由一致。

posted on 2019-06-20 19:14  YUANya  阅读(467)  评论(0编辑  收藏  举报