pip批量更新安装的包
摘要:pip批量更新库 1)查看过期的库 pip list --outdated 更新单一的库: pip install --upgrade 库名 批量升级更新所有过期的库 import pipfrom pip._internal.utils.misc import get_installed_distr
阅读全文
hmm 软件的使用
摘要:1)使用HMM模型搜索序列数据库(以青蟹蛋白库为例,简写为qingxie.pep),同源参考序列(query.fas)hmmbuild: 用多重比对序列构建HMM模型;hmmsearch: 使用HMM模型搜索序列库;步骤1: 1、pfam下载多重比对文件的种子序列(PF02898_seed_NOS.
阅读全文
ensembl数据库的使用方法
摘要:1)下载各种数据bam、gtf、fasta、ded等的地址 ftp://ftp.ensembl.org/../pub/release-93/
阅读全文
bedtools简介及应用
摘要:1)背景处理基因组数据中,比较基因组不同区域,例如寻找overlap等,是一种基本的且常见的问题。虽然UCSC 中‘Table Browser’或者Galaxy可以用来处理,但是当这些工具面对大的数据的时候就会显得力不从心。因此,需要一款快速、灵活的软件来批量处理数据集。 bedtools是一款用C
阅读全文
samtools软件的使用
摘要:1)samtools简介 背景:前面我们讲过sam/bam格式,sam文件虽然是可读的文本文件形式,但是通常是非常大,因此一般会对其压缩来节省磁盘空间,且对于很多软件来说,相比于对sam文件,对bam文件进行处理更加有效。SAMtools 是一款优秀的用以解析、处理sam/bam格式文件的一种软件包
阅读全文
matplotlib画图
摘要:1)plt.subplots() fig,ax = plt.subplots()的意思是,建立一个fig对象,建立一个axis对象。 pyplot有当前的图形(figure)和当前的轴(axes)的概念,所有的作图命令都是对当前的对象作用。 2)matplotlib各部分的讲解 首先一幅Matplo
阅读全文
blast及其格式输出简介
摘要:1)blast产生背景 双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大。当与数据库比对的时候,该算法就显得不切实际。因此TASTA,blast采用启发式算法使得通过大幅度丢失灵敏度
阅读全文
bed文件格式解读
摘要:1)BED文件 BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单
阅读全文
gff/gtf格式
摘要:1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。 GFF(general feature forma
阅读全文
sam/bam格式
摘要:1)Sam (Sequence Alignment/Map) 1) SAM 文件产生背景 随着Illumina/Solexa, AB/SOLiD and Roche/454测序技术不断的进步,各种比对工具产生,被用来高效的将reads比对到参考基因组。因为这些比对工具产生不同格式的文件,导致下游分析
阅读全文
fasta/fastq格式解读
摘要:1)知识简介 1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error): 除此之外还有s
阅读全文
blat
摘要:1) 产生背景 2002年的时候,随着人类基因组项目不断推进,需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释,而这项任务需要在2周内完成 (90 CPU Linux 集群),因为blast工具速度相对偏慢,结果也不易处理,无法提供intron
阅读全文
lrzsz的安装与配置
摘要:1)下载http://freshmeat.sourceforge.net/projects/lrzsz/ 2)tar zxvf lrzsz-0.12.20.tar.gz 3)mv lrzsz-0.12.20/ lrzsz 4)./configure –prefix=/home/jxdong/bios
阅读全文
利用R求分位数及画出箱型图
摘要:1)数据集 data<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0) 默认是四分位:quantile(data) 求某个百分位:例如90% 求两个百分位:例如,10%,90% 产生一系列的等
阅读全文
利用R产生随机数
摘要:生成随机数有两个函数runif()和rnorm(),其中r表示的是random随机的意思,unif表示的是均匀分布,而norm表示的是正态分布。 1)生成10个2到3之间的,服从均匀分布的随机数:runif(10,2,3);服从正态分布的随机数:rnorm(10,2,3) 因为是随机的,所以每次的结
阅读全文
第二章 描述性统计
摘要:2.1 描述定性数据的图形法和数值法 定义2.1 类(或组)频数:落入这个类中的观测值的个数 类(或组)相对频率:落入这个类中的观测值的个数相对于观测值总数的比例 定性数据描述常用条形图和饼图 条形图:给出每一类的频数(或频率),长方形的高度或长度与类频数(或频率)成比例 饼图:一个整圆分成几份,每
阅读全文