samtools中faidx索引格式
摘要:1、faidx格式 第一列 NAME: 序列的名称,只保留“>”后,第一个空白之前的内容; 第二列 LENGTH: 序列的长度, 单位为bp; 第三列 OFFSET: 第一个碱基的偏移量, 从0开始计数,换行符也统计进行; 第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数,
阅读全文
bigBed及bigWig格式
摘要:bigBed 1、bigBed格式 BigBed文件是使用bedToBigBed程序从BED类型文件创建的。结果得到的bigBed文件是二进制索引文件。bigBed文件的主要优点是,仅将显示特定区域所需的文件部分传输到Genome浏览器服务器。因此,在处理大数据集时,bigBed的显示性能要比常规B
阅读全文
群体遗传之ped格式
摘要:1、PED简介 PED文件格式是广泛使用的用于连锁系谱数据分析的格式,并用作plink程序的输入。PLINK是一个免费的,开源的全基因组关联分析工集,旨在以高计算效率的方式执行一系列基本的,大规模的分析。PED能够处理二倍体SNP数据。 plink可以接收vcf格式文件,但是plink更倾向于自己的
阅读全文
常用数据库ID格式
摘要:转自:http://www.biotrainee.com/thread-411-1-1.html 常用数据库 ID Ensembl stable IDs Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不
阅读全文
blast及其格式输出简介
摘要:1)blast产生背景 双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大。当与数据库比对的时候,该算法就显得不切实际。因此TASTA,blast采用启发式算法使得通过大幅度丢失灵敏度
阅读全文
bed文件格式解读
摘要:1)BED文件 BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单
阅读全文
gff/gtf格式
摘要:1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。 GFF(general feature forma
阅读全文
sam/bam格式
摘要:1)Sam (Sequence Alignment/Map) 1) SAM 文件产生背景 随着Illumina/Solexa, AB/SOLiD and Roche/454测序技术不断的进步,各种比对工具产生,被用来高效的将reads比对到参考基因组。因为这些比对工具产生不同格式的文件,导致下游分析
阅读全文
fasta/fastq格式解读
摘要:1)知识简介 1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error): 除此之外还有s
阅读全文
blat
摘要:1) 产生背景 2002年的时候,随着人类基因组项目不断推进,需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释,而这项任务需要在2周内完成 (90 CPU Linux 集群),因为blast工具速度相对偏慢,结果也不易处理,无法提供intron
阅读全文