摘要:背景: mitoMaker是一款线粒体/叶绿体组装的pipeline软件,可以从原始的下机数据开始,自动化的组装基因组,注释基因结构,最终生成genebank, fasta 等文件。 整个pipeline 可以分成6个主要步骤: 1)基于不同大小的kmer 值进行denovo 组装 2)查找对应的结
阅读全文
摘要:使用ggplot2 绘图时,我们只需要提供原始数据就可以了,ggplot2 内置了许多的计算函数,来帮助我们计算对应的数值。 最典型的的,当使用geom_boxplot 绘制箱线图时,我们只提供原始数据,用来绘图的最大值,最小值,中位数,上下四分位数都由ggplot2 自动计算。 那么我们如何提取这
阅读全文
摘要:randomForest 包提供了利用随机森林算法解决分类和回归问题的功能;我们这里只关注随机森林算法在分类问题中的应用 首先安装这个R包 安装成功后,首先运行一下example 通过查看函数的帮助文档,可以看到对应的example 代码很简单,全部的功能都封装在 randomForest 这个R包
阅读全文
摘要:随机森林是机器学习中的一种分类算法,在介绍随机森林之前,非常有必要了解决策树这种分类器。 决策树是一种分类器,通过训练集构建一颗决策树,从而可以对新的数据预测其分类。一颗构建好的决策树如下: 图片来源于百度百科,可以看到这颗决策树的目标是将数据分成 "使用" 和 "不使用" 两类,分类的条件有树中的
阅读全文
摘要:在下载软件的时候,需要知道操作系统对应的版本,通过 可以查看对应信息 运行的结果如下: 从而确定当前操作系统为centos 6.7 版本
阅读全文
摘要:GATK处理DNA 水平的snp 经验比较成熟,而RNA 水平较少,所以可能会存在错误 目前的流程兼顾了假阳性(不是真的snp位点)和假阴性(该位点是snp,却没有检测到);后续会不断改善 GATK SNP calling pipeline 分成3个部分: 1)DATA CLEANUP 2) VAR
阅读全文
摘要:用bioperl 解析blast的默认输出结果, 整理成-m8格式的输出
阅读全文
摘要:1) perl 模块的创建 perl 模块的后缀名为.pm, 其中的内容和一般的perl脚本相同, perl模块中通常放置可重用的函数以及变量, 比如创建一个fasta.pm,里面包含一个统计fasta序列中gc碱基个数的方法: 然后写一个脚本检测一下该模块是否起作用: 运行该脚本,输出结果为7,
阅读全文
摘要:在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念: 1)ambiguous bases 中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基 模糊碱基实际上就是除了A T C G
阅读全文
摘要:reverse.seqs 命令可以得到输入序列的反向互补序列 用法: input.fasta 的内容如下: 运行成功后,会输出一个 input.rc.fasta 文件,该文件中就是input.fasta 的反向互补序列 input.rc.fasta 的内容如下:
阅读全文
摘要:群体感应的定义: 细菌能自发产生、释放一些特定的信号分子,并能感知其浓度变化,调节微生物的群体行为, 这一调控系统称为群体感应。细菌群体感应参与包括人类、动植物病原菌致病力在内的多种生物学功能的调节。 近年来的研究证明细菌之间存在信息交流,许多细菌都能合成并释放一种被称为自诱导物质(autoindu
阅读全文
摘要:TCDB是对膜转运蛋白(Membrane Transport Protein)进行分类的一个数据库,它制定了一套转运蛋白分类系统(Transporter Classification), 简称TC System, 类似于对酶进行分类的EC系统,只不过TC系统同时提供了功能和进化信息; TCDB对于每
阅读全文
摘要:PHI是一个致病菌的数据库,截止到2017年8月1号为止,最新的版本是4.3,数据库中收录了实验验证过的致病菌的信息,其中有176个来自动物的致病菌,227个来自植物的致病菌,3个来自真菌的致病菌; 4.3版本中数据库的具体信息如下: 共收录了4775个基因, 相互作用有8610条, 致病菌有264
阅读全文