文件格式解读及处理 - 随笔分类 - 发那个太丢人

mummer4结果文件解读

该文被密码保护。

posted @ 2020-12-15 11:01 发那个太丢人阅读(0) 评论(0) 推荐(0) 编辑

切割fasta序列

该文被密码保护。

posted @ 2020-11-20 17:14 发那个太丢人阅读(0) 评论(0) 推荐(0) 编辑

insert size，与fragment size

摘要：阅读全文

posted @ 2020-06-26 09:58 发那个太丢人阅读(371) 评论(0) 推荐(0) 编辑

samtools中faidx索引格式

摘要：1、faidx格式第一列 NAME: 序列的名称，只保留“>”后，第一个空白之前的内容；第二列 LENGTH: 序列的长度，单位为bp；第三列 OFFSET: 第一个碱基的偏移量，从0开始计数，换行符也统计进行；第四列 LINEBASES : 除了最后一行外，其他代表序列的行的碱基数，阅读全文

posted @ 2020-01-14 11:28 发那个太丢人阅读(618) 评论(0) 推荐(0) 编辑

bigBed及bigWig格式

摘要：bigBed 1、bigBed格式 BigBed文件是使用bedToBigBed程序从BED类型文件创建的。结果得到的bigBed文件是二进制索引文件。bigBed文件的主要优点是，仅将显示特定区域所需的文件部分传输到Genome浏览器服务器。因此，在处理大数据集时，bigBed的显示性能要比常规B 阅读全文

posted @ 2019-12-28 10:16 发那个太丢人阅读(5005) 评论(0) 推荐(0) 编辑

bam排序及未排序，去重及未去重

该文被密码保护。

posted @ 2019-12-21 17:29 发那个太丢人阅读(6) 评论(0) 推荐(0) 编辑

群体遗传之ped格式

摘要：1、PED简介 PED文件格式是广泛使用的用于连锁系谱数据分析的格式，并用作plink程序的输入。PLINK是一个免费的，开源的全基因组关联分析工集，旨在以高计算效率的方式执行一系列基本的，大规模的分析。PED能够处理二倍体SNP数据。 plink可以接收vcf格式文件，但是plink更倾向于自己的阅读全文

posted @ 2019-12-15 22:38 发那个太丢人阅读(4800) 评论(0) 推荐(0) 编辑

gff相位及内含子相位问题

该文被密码保护。

posted @ 2019-09-27 19:34 发那个太丢人阅读(4) 评论(0) 推荐(0) 编辑

bam文件中的duplicate详细解释

该文被密码保护。

posted @ 2019-07-05 18:46 发那个太丢人阅读(10) 评论(0) 推荐(0) 编辑

minimap2的结果处理

该文被密码保护。

posted @ 2019-02-18 23:01 发那个太丢人阅读(20) 评论(0) 推荐(0) 编辑

常用数据库ID格式

摘要：转自：http://www.biotrainee.com/thread-411-1-1.html 常用数据库 ID Ensembl stable IDs Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不阅读全文

posted @ 2018-09-12 19:49 发那个太丢人阅读(1253) 评论(0) 推荐(0) 编辑

blast及其格式输出简介

摘要：1）blast产生背景双序列比对可以采用是基于动态规划算法的Needleman-Wunsch（NW）和Smith-Waterman algorithm（SW）算法，虽然精度高，但计算消耗大。当与数据库比对的时候，该算法就显得不切实际。因此TASTA，blast采用启发式算法使得通过大幅度丢失灵敏度阅读全文

posted @ 2018-08-21 11:54 发那个太丢人阅读(21651) 评论(0) 推荐(0) 编辑

vcf格式简介及处理

该文被密码保护。

posted @ 2018-08-20 11:51 发那个太丢人阅读(185) 评论(0) 推荐(0) 编辑

bed文件格式解读

摘要：1）BED文件 BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行，以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。每条线的字段数目必须是任意单阅读全文

posted @ 2018-08-19 11:43 发那个太丢人阅读(7343) 评论(0) 推荐(1) 编辑

gff/gtf格式

摘要：1）gff3及gtf2简介一个物种的基因组测序完成后，需要对这些数据进行解读，首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。 GFF(general feature forma 阅读全文

posted @ 2018-08-18 16:36 发那个太丢人阅读(13318) 评论(0) 推荐(0) 编辑

sam/bam格式

摘要：1）Sam (Sequence Alignment/Map) 1) SAM 文件产生背景随着Illumina/Solexa, AB/SOLiD and Roche/454测序技术不断的进步，各种比对工具产生，被用来高效的将reads比对到参考基因组。因为这些比对工具产生不同格式的文件，导致下游分析阅读全文

posted @ 2018-08-17 21:32 发那个太丢人阅读(1639) 评论(0) 推荐(0) 编辑

fasta/fastq格式解读

摘要：1）知识简介 1.1）测序质量值首先在了解fastq，fasta之前，了解一下什么是质量值。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值，这个质量值的计算与测序预期错误率相关(estimated probability of error)：除此之外还有s 阅读全文

posted @ 2018-08-17 16:16 发那个太丢人阅读(10575) 评论(0) 推荐(0) 编辑

blat

摘要：1) 产生背景 2002年的时候，随着人类基因组项目不断推进，需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释，而这项任务需要在2周内完成 (90 CPU Linux 集群），因为blast工具速度相对偏慢，结果也不易处理，无法提供intron 阅读全文

posted @ 2018-08-16 21:51 发那个太丢人阅读(1020) 评论(0) 推荐(0) 编辑

导航

随笔分类 - 文件格式解读及处理