2017 年 8月随笔档案 - 庐州月光

motiMaker 软件安装测试

摘要：背景： mitoMaker是一款线粒体/叶绿体组装的pipeline软件，可以从原始的下机数据开始，自动化的组装基因组，注释基因结构，最终生成genebank, fasta 等文件。整个pipeline 可以分成6个主要步骤： 1）基于不同大小的kmer 值进行denovo 组装 2）查找对应的结阅读全文

posted @ 2017-08-21 16:12 庐州月光阅读(939) 评论(0) 推荐(0) 编辑

ggplot2 提取stat计算出来的数据

摘要：使用ggplot2 绘图时，我们只需要提供原始数据就可以了，ggplot2 内置了许多的计算函数，来帮助我们计算对应的数值。最典型的的，当使用geom_boxplot 绘制箱线图时，我们只提供原始数据，用来绘图的最大值，最小值，中位数，上下四分位数都由ggplot2 自动计算。那么我们如何提取这阅读全文

posted @ 2017-08-21 15:08 庐州月光阅读(2027) 评论(0) 推荐(0) 编辑

R包 randomForest 进行随机森林分析

摘要：randomForest 包提供了利用随机森林算法解决分类和回归问题的功能；我们这里只关注随机森林算法在分类问题中的应用首先安装这个R包安装成功后，首先运行一下example 通过查看函数的帮助文档，可以看到对应的example 代码很简单，全部的功能都封装在 randomForest 这个R包阅读全文

posted @ 2017-08-14 15:10 庐州月光阅读(16398) 评论(0) 推荐(0) 编辑

随机森林简介

摘要：随机森林是机器学习中的一种分类算法，在介绍随机森林之前，非常有必要了解决策树这种分类器。决策树是一种分类器，通过训练集构建一颗决策树，从而可以对新的数据预测其分类。一颗构建好的决策树如下：图片来源于百度百科，可以看到这颗决策树的目标是将数据分成 "使用" 和 "不使用" 两类，分类的条件有树中的阅读全文

posted @ 2017-08-14 13:38 庐州月光阅读(1860) 评论(0) 推荐(0) 编辑

Linux 查看操作系统版本

摘要：在下载软件的时候，需要知道操作系统对应的版本，通过可以查看对应信息运行的结果如下：从而确定当前操作系统为centos 6.7 版本阅读全文

posted @ 2017-08-11 10:55 庐州月光阅读(321) 评论(0) 推荐(0) 编辑

RNA_seq GATK 最佳实践

摘要：GATK处理DNA 水平的snp 经验比较成熟，而RNA 水平较少，所以可能会存在错误目前的流程兼顾了假阳性（不是真的snp位点）和假阴性（该位点是snp,却没有检测到）；后续会不断改善 GATK SNP calling pipeline 分成3个部分： 1）DATA CLEANUP 2) VAR 阅读全文

posted @ 2017-08-10 16:34 庐州月光阅读(1505) 评论(0) 推荐(0) 编辑

Bioperl 解析blast的输出结果

摘要：用bioperl 解析blast的默认输出结果，整理成-m8格式的输出阅读全文

posted @ 2017-08-08 14:01 庐州月光阅读(1213) 评论(0) 推荐(0) 编辑

perl 模块的创建以及制定perl 模块的路径

摘要：1） perl 模块的创建 perl 模块的后缀名为.pm, 其中的内容和一般的perl脚本相同， perl模块中通常放置可重用的函数以及变量，比如创建一个fasta.pm,里面包含一个统计fasta序列中gc碱基个数的方法：然后写一个脚本检测一下该模块是否起作用：运行该脚本，输出结果为7，阅读全文

posted @ 2017-08-08 14:00 庐州月光阅读(3608) 评论(0) 推荐(0) 编辑

R语言在柱状图上添加文字

摘要：代码示例：效果图如下：阅读全文

posted @ 2017-08-08 13:49 庐州月光阅读(5739) 评论(0) 推荐(0) 编辑

R语言绘制带errorbar 的柱状图

摘要：代码示例：效果图如下：阅读全文

posted @ 2017-08-04 10:41 庐州月光阅读(5383) 评论(0) 推荐(0) 编辑

mothur summary.seqs 统计fasta文件中每条序列的长度

摘要：在介绍summary.seqs的用法之前，我们首先需要搞清楚两个概念： 1）ambiguous bases 中文叫做模糊碱基，对于DNA序列来说，只有ATCG 4种碱基，在IUPAC定义的碱基标准中，出了上述4种碱基之外，还包括其他的碱基，可以代表不同类型的碱基模糊碱基实际上就是除了A T C G 阅读全文

posted @ 2017-08-02 11:28 庐州月光阅读(1437) 评论(0) 推荐(0) 编辑

mothur reverse.seqs 将序列反向互补

摘要：reverse.seqs 命令可以得到输入序列的反向互补序列用法： input.fasta 的内容如下：运行成功后，会输出一个 input.rc.fasta 文件，该文件中就是input.fasta 的反向互补序列 input.rc.fasta 的内容如下：阅读全文

posted @ 2017-08-02 10:55 庐州月光阅读(401) 评论(0) 推荐(0) 编辑

Quorumpeps 群体感应数据库简介

摘要：群体感应的定义：细菌能自发产生、释放一些特定的信号分子，并能感知其浓度变化，调节微生物的群体行为，这一调控系统称为群体感应。细菌群体感应参与包括人类、动植物病原菌致病力在内的多种生物学功能的调节。近年来的研究证明细菌之间存在信息交流，许多细菌都能合成并释放一种被称为自诱导物质(autoindu 阅读全文

posted @ 2017-08-01 16:52 庐州月光阅读(967) 评论(0) 推荐(0) 编辑

TCDB 数据库简介

摘要：TCDB是对膜转运蛋白（Membrane Transport Protein）进行分类的一个数据库，它制定了一套转运蛋白分类系统（Transporter Classification）, 简称TC System, 类似于对酶进行分类的EC系统，只不过TC系统同时提供了功能和进化信息； TCDB对于每阅读全文

posted @ 2017-08-01 13:33 庐州月光阅读(4283) 评论(0) 推荐(0) 编辑

PHI 数据库简介

摘要：PHI是一个致病菌的数据库，截止到2017年8月1号为止，最新的版本是4.3，数据库中收录了实验验证过的致病菌的信息，其中有176个来自动物的致病菌，227个来自植物的致病菌，3个来自真菌的致病菌; 4.3版本中数据库的具体信息如下：共收录了4775个基因，相互作用有8610条，致病菌有264 阅读全文

posted @ 2017-08-01 12:43 庐州月光阅读(4883) 评论(0) 推荐(0) 编辑

庐州月光

08 2017 档案

motiMaker 软件安装测试

ggplot2 提取stat计算出来的数据

R包 randomForest 进行随机森林分析

随机森林简介

Linux 查看操作系统版本

RNA_seq GATK 最佳实践

Bioperl 解析blast的输出结果

perl 模块的创建以及制定perl 模块的路径

R语言在柱状图上添加文字

R语言绘制带errorbar 的柱状图

mothur summary.seqs 统计fasta文件中每条序列的长度

mothur reverse.seqs 将序列反向互补

Quorumpeps 群体感应数据库简介

TCDB 数据库简介

PHI 数据库简介

导航

公告

统计

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论