随笔分类 - 生物信息学
摘要:Read:高通量测序平台产生的序列就称为reads。 Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。 Scaffold:基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列...
阅读全文
摘要:根据一个打分系统,怎么样排对起来打分能够最大.就认为历史上应该是这样子的. 数据同源搜索软件Fasta和Blast 是目前功能最全,使用最广的同源性数据库搜索软件包。他们在Needleman的动态算法的基础上做了很多技术上的改进,如采用启发式算法。使得在精确度牺牲较小的情况下,速度快了很多。 FASTA.是1985年提出的一个全局联配算法. BLAST.是1990年提出的。最初被设计...
阅读全文
摘要:NCBI的检索软件ENtrez及两大数据库:GenBank和RefSeq EBI的核酸序列数据库EMBL及其它服务 上面这两个主要是针对核酸的 Swiss-Prot蛋白序列数据库(蛋白质服务用) PDB生物大分子三维结构数据库. SCOP蛋白质结构分类数据库。 Entrez及两大数据库:GenBank和RefSeq NCBI:美国国家生物技术信息中心(National Cent...
阅读全文
摘要:用一段序列的复杂度来测度这段序列可能是编码区呢?还是编码区?如果这短序列的复杂性越高,也就是说花样越多的话。这段序列越像是编码区。 外显子是被内含子隔开的. 用数据库资源如何发现新基因 通过数据库资源发现新基因的途径: 1.这两个途径就是你用了什么样的数据库资源,利用数据库当中的基因组序列进行来发现新的基因.发现新的编码序列.通过实验得到的基因组序列发现先的编码序列。 原理是...
阅读全文
摘要:大规模基因组测序中的信息分析 -- 拼接与注释 大规模测序是基因组研究的最基本任务,它的每一给环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体识别与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。 DNA测序仪,测的是光密度。每个碱基是四个不同颜色的光.所以一开始你就需要把光密度变成碱基图样。这是生物信息...
阅读全文
摘要:什么是生物信息学? 他是一个学科领域,包含着基因组信息的获取,处理,存储,分配(第一部分:把信息拿来管好帮助用户使用好),分析和解释(第二部分:破译遗传信息中生病之类的基本规律,获取基本规律的发掘与获得)的所有方面。 从美国的三个国家计划说起:曼哈顿计划(核弹,核能,能源革命);阿波罗计划(人类探索宇宙,走出地球空间的革命);人类基因组计划(上个世纪80年代末。90年代初,1990年开始,通过...
阅读全文