08 2017 档案
摘要:首先把测试数据存储到文件中方便调用。数据矩阵存储在line_data.xls和line_data_melt.xls文件中 (直接拷贝到文件中也可以,这里这么操作只是为了随文章提供个测试文件,方便使用。如果你手上有自己的数据,也可以拿来用)。 profile = "Pos;H3K27ac;CTCF;E
阅读全文
摘要:箱线图 箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具。就这样都可以发两篇Nature method,没天理,但也说明了箱线图的重要意义。 下面这张图展示了Bar
阅读全文
摘要:线图是反映趋势变化的一种方式,其输入数据一般也是一个矩阵。 单线图 假设有这么一个矩阵,第一列为转录起始位点及其上下游5 kb的区域,第二列为H3K27ac修饰在这些区域的丰度,想绘制一张线图展示。 profile="Pos;H3K27ac -5000;8.7 -4000;8.4 -3000;8.3
阅读全文
摘要:实际应用中,异常值的出现会毁掉一张热图。这通常不是我们想要的。为了更好的可视化效果,需要对数据做些预处理,主要有对数转换,Z-score转换,抹去异常值,非线性颜色等方式。 对数转换 为了方便描述,假设下面的数据是基因表达数据,4个基因 (a, b, c, d)和5个样品 (Grp_1, Grp_2
阅读全文
摘要:绘制热图除了使用ggplot2,还可以有其它的包或函数,比如pheatmap::pheatmap (pheatmap包中的pheatmap函数)、gplots::heatmap.2等。 相比于ggplot2作heatmap, pheatmap会更为简单一些,一个函数设置不同的参数,可以完成行列聚类、
阅读全文
摘要:# 数据产生 # rnorm(n, mean = 0, sd = 1) 正态分布的随机数(r 代表随机,可以替换成dnorm, pnorm, qnorm 作不同计算。r= random = 随机, d= density = 密度, p= probability = 概率 , q =quantile
阅读全文
摘要:生成测试数据 绘图首先需要数据。通过生成一堆的向量,转换为矩阵,得到想要的数据。 data <- c(1:6, 6:1, 6:1, 1:6, (6:1)/10, (1:6)/10, (1:6)/10, (6:1)/10, 1:6, 6:1, 6:1, 1:6, 6:1, 1:6, 1:6, 6:1)
阅读全文
摘要:文件排序 seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。 # 产生从1到10的数,步长为1 seq 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为1,用空格分割 seq -s ' ' 1 10 1
阅读全文
摘要:命令或文件名自动补全:在输入命令或文件名的前几个字母后,按Tab键,系统会自动补全或提示补全 上下箭头:使用上下箭头可以回溯之前的命令,增加命令的重用,减少输入工作量 !加之前输入过的命令的前几个字母,快速获取前面的命令 $ cut -f 1 -d ' ' ehbio.fa | tail -n 4
阅读全文
摘要:监测命令的运行时间 time command $ time sleep 5 real 0m5.003s # 程序开始至结束的时间,包括其它进程占用的时间片和IO时间 user 0m0.001s # 进程真正执行占用CPU的时间 sys 0m0.002s # 进程在内核中调用所消耗的CPU时间 use
阅读全文
摘要:通俗的讲,环境变量就是告诉电脑 (实际是操作系统)几个目录。这几个目录下存储几个执行文件,如前面显示的/usr/bin目录,大部分的系统命令都在这个目录下。 当我们输入命令mkdir时,系统就会在环境变量所代表的几个目录从前到后去查找,哪个里面有mkdir文件,然后去执行mkdir命令。 系统中环境
阅读全文
摘要:分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们获得了OTU序列的进化分析、同时计算Alpha和Beta多样性值。 本节是最后一节,我们对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成 19. 按物种分类级别分类汇总 OTU表中最重要的
阅读全文
摘要:字符串连接函数paste 1、字符串连接:paste(..., sep = " ", collapse = NULL)sep表示分隔符,默认为空格。collapse表示如果不指定值,那么函数paste的返回值是自变量之间通过sep指定的分隔符连接后得到的一个字符型向量;如果为其指定了特定的值,那么自
阅读全文
摘要:绘制Alpha多样性线箱图 绘图和统计全部为R语言,建议复制代码,在Rstuido中运行,并设置工作目录为存储之前分析结果文件的result目录 # 运行前,请在Rstudio中菜单栏选择“Session - Set work directory -- Choose directory”,弹窗选择之
阅读全文
摘要:分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们的OTU获得了物种注释,并学习OTU表的各种操作————添加信息,格式转换,筛选信息。 接下来我们学习对OTU序列的进化分析、同时计算Alpha和Beta多样性值。 16. 进化树构建 进化树是基于多序列比对的结果,可展
阅读全文
摘要:本节课程,需要先完成《扩增子分析解读》系列之前的操作 1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类 4去嵌合体 非细菌序列 生成代表性序列和OTU表 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们学习了
阅读全文
摘要:本节课程,需要先完成 扩增子分析解读1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们制作了Usearch要求格
阅读全文
摘要:本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并和2提取barcode 质控及样品拆分 切除扩增引物 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们提取barcode,质控及样品拆分,切除扩增引物,经历了
阅读全文
摘要:本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们拿到了双端数据,进行了质控、并对实验设计进行了填写和检查、最后将双端数据合并为单个文件进行下游分析。 接下来
阅读全文
摘要:通过 conda 安装 qiime 1后,在执行join_paired_ends.py时报错: burrito.util.ApplicationNotFoundError: Cannot find fastq-join. Is it installed? Is it in your path? 这是
阅读全文
摘要:本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch定制的分析流程。本课程中所需的测序数据、实验设计和课程分析生成的中间文件,均可以直去百度云下载。链接:http://pan.baidu.com/s/1hs1PXcw 密码:y3
阅读全文
摘要:# 下载最新版QIIME 2 docker pull qiime2/core:2017.7 # 测试是否安装成功 docker run -t -i -v $(pwd):/mnt/hgfs/2017 qiime2/core:2017.7 qiime # 启动docker命令行,挂载目录至/mnt/hg
阅读全文
摘要:lsb_release 提示: No LSB modules are available 执行: sudo apt-get install lsb-core
阅读全文
摘要:任务列表 比对软件 hisat2的用法 下载index文件 比对、排序、索引 质量控制 载入IGV,截图几个基因 hisat2的用法 本作业是比对到基因组,所以使用gapped or splices mapper,此流程已经更新。TopHat首次被发表已经是7年前,STAR的比对速度是TopHat的
阅读全文
摘要:创建两个 shell 脚本文件。 test1.sh 代码如下: #!/bin/bash url="http://www.cnblogs.com/freescience" test2.sh 代码如下: #!/bin/bash #使用 . 号来引用test1.sh 文件 . ./test1.sh # 或
阅读全文
摘要:任务列表 1.在UCSC下载hg19参考基因组; 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 3.截图几个基因的IGV可视化结构 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构 5.了解IGV常识
阅读全文
摘要:打开自带Firefox浏览器,显示连接不上网,终端下 ping 也显示 unkown 解决方法: 1.打开虚拟机的“编辑”选项,选择“虚拟网络编辑器” 2.选择VMnet8(我不知道为啥VMnet8这么神奇,要是新建其他号还不行,暂且不管),点击右下角“更改设置” 3.同时打开 Windows下面的
阅读全文
摘要:输出重定向 重定向一般通过在命令间插入特定的符号来实现。特别的,这些符号的语法如下所示 command1 >file1 上面这个命令执行command1然后将输出的内容存入file1。 注意任何file1内的已经存在的内容将被新内容替代。如果要将新内容添加在文件末尾,请使用>>操作符。 实例 执行下
阅读全文
摘要:下面的例子定义了一个函数并进行调用: #!/bin/bash demoFun(){ echo "这是我的第一个 shell 函数!" } echo " 函数开始执行 " demoFun echo " 函数执行完毕 " 输出结果: 函数开始执行 这是我的第一个 shell 函数! 函数执行完毕 下面定
阅读全文
摘要:和Java、PHP等语言不一样,sh的流程控制不可为空 if else if 语句语法格式: if condition then command1 command2 ... commandN fi 写成一行(适用于终端命令提示符): if [ $(ps -ef | grep -c "ssh") -g
阅读全文
摘要:Shell 的另一个输出命令 printf。默认 printf 不会像 echo 自动添加换行符,我们可以手动添加 \n。 #!/bin/bash printf "%-10s %-8s %-4s\n" 姓名 性别 体重kg printf "%-10s %-8s %-4.2f\n" 郭靖 男 66.1
阅读全文
摘要:Shell中的 test 命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试 num1=100 num2=100 if test [num1] -eq [num2] then echo '两个数相等!' else echo '两个数不相等!' fi 输出结果: 两个数相等!
阅读全文
摘要:显示变量 read 命令从标准输入中读取一行,并把输入行的每个字段的值指定给 shell 变量 #!/bin/sh read name echo "$name It is a test" 以上代码保存为 test.sh,name 接收标准输入的变量,结果将是: [root@www ~]# sh te
阅读全文
摘要:原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。 expr 是一款表达式计算工具,使用它能完成表达式的求值操作。 例如,两个数相加(注意使用的是反引号 ` 而不是单引号 '): #!/bin/bash val=`expr 2 + 2` ec
阅读全文
摘要:我们可以在执行 Shell 脚本时,向脚本传递参数,脚本内获取参数的格式为:n。n 代表一个数字,1 为执行脚本的第一个参数,2 为执行脚本的第二个参数,以此类推…… 以下实例我们向脚本传递三个参数,并分别输出,其中 0 为执行的文件名: #!/bin/bash echo "Shell 传递参数
阅读全文
摘要:sra文件转换为fastq格式 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。
阅读全文
摘要:第一个shell脚本 #! 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell 将上面的代码保存为 test.sh,并 cd 到相应目录 Shell 变量 除了显式地直接赋值,还可以用语句给变量赋值,如: 以上语句将 /etc 下目录的文件名循环出来 使用一个定义过的
阅读全文
摘要:监督学习--supervised learning 假如说你想预测房价。 你收集了一些房价的数据,把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子
阅读全文
摘要:在使用FastQC之后,如果我们发现了一些问题(序列质量不高),那么我们该使用什么样的工具,去解决这些问题呢? fastx Toolkit是包含处理fastq/fasta文件的一系列的工具,它是基于java开发的,我们高通量测序最常用到的是使用这个软件进行reads的裁剪(trim) FASTQ-t
阅读全文
摘要:1、下载fastqc 2、解压 3、 给予执行权限,否则执行的时候会显示没有权限 cd FastQCchmod 755 fastqc 4、加入到PATH export PATH=/home/h/FastQC/:$PATH 4、加入到PATH 5、测试 fastqc --help 5、测试 使用例子
阅读全文
摘要:https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA323422 lne是perl的参数,效果是: perl接收你的键盘输入(用后面的代码)处理后,输出一个换行,然后等待接收下一个输入 perl -lne 'id=substr(_,0,6)
阅读全文
摘要:1.创建一个本地项目,比如/d/text文件夹 2.建立本地仓库 首先进入text文件夹 初始化执行指令: 将所有文件添加到仓库执行指令: 执行指令(双引号内是提交注释): git commit -m "提交文件" 执行指令(双引号内是提交注释): 3.关联github仓库 到github text
阅读全文
摘要:使用cbind()函数连接多个向量来创建数据帧。此外,使用rbind()函数合并两个数据帧 使用merge()函数合并两个数据帧。数据帧必须具有相同的列名称,在其上进行合并 melt()拆分数据和cast()数据重构 连接字符串 - paste()函数 格式化数字和字符串 - format()函数
阅读全文
摘要:sratookit 下载后解压 移动到专门安装生物信息软件的目录下 加入环境变量 测试 下载测试文件SRR390728,默认存放在家目录下的ncbi文件夹中 转换sra文件的套路: -O 指定输出路径 --gzip 指定输出格式为gzip压缩格式(fastqc软件可以直接识别gzip压缩的文件) -
阅读全文
摘要:数据分析与解读 1. Data Cleaning 从原始数据(Raw Data)到干净数据(Clean Data)的过程,有人翻译成“数据清洗”,实在叫不习惯 Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂在一起的,所以公司一般不会提供Bcl文件。
阅读全文
摘要:在单菌基因组的组装结果中,N50和N90代表什么意思? 大于N50长度的序列占基因组总长的50%,大于N90长度的序列占基因组总长的90%。 1、N50和N90是基因组组装中常用的组装指标,其含义为,将序列按照长度从大到小排列,依次计算大于该序列长度的序列总长,找到序列总长度刚好大于基因组总长度的5
阅读全文
摘要:在微生物测序中,样本的准备从根本上是确保获得高质量DNA的前提,而样本准备也正是让众多微生物科研工作者感到困扰的重要一步。今天就给大家分类介绍一下常见的微生物样本类型及采样方法 微生物测序样本准备方法 医口样本类型 样本种类推荐生物学重复 肠道 粪便,粘膜 6, 推荐 10 液体 尿,血液,脑髓液,
阅读全文
摘要:Microbiota 微生物群 微生物群是指研究动植物体上共生或病理的微生物生态群体。微生物群包括细菌、古菌、原生动物、真菌和病毒。研究表明其在宿主的免疫、代谢和激素等方面非常重要。近义词Microbiome微生物组即包括微生物,又包括其基因组 Microbiota 微生物群 微生物群是指研究动植物
阅读全文
摘要:扩增子常见问题 01 实验室检测的DNA浓度很高,送到公司检测之后浓度却比较低呢? 1、老师在实验室多采用Nanodrop对DNA浓度进行检测,而在公司我们会结合Qubit、Nanodrop、琼脂糖电泳三种方法检测DNA样品的质量; 2、由于不同检测方法的原理不同,所以检测出的结果也会存在一定的差异
阅读全文
摘要:网络图 Network 网络图虽然给人高大上的感觉,但是由于信息太多,无法给读者提供读有效的可读信息或是读者不知道该理解什么,总是让人望尔却步。那是因为大家太不了解网络,自己读不懂网络想表达的意思及其重要性。 因此我要举一个网络分析重要的例子,大家都知道2012年诺贝尔奖得主Yamanaka提出的诱
阅读全文
摘要:三元图/三元相图 Ternary Plot 三元图有6种英文叫法,其中ternary plot最为常用。三元图是重心图的一种,它有三个变量,但需要三者总和为恒定值。在一个等边三角形坐标系中,图中某一点的位置代表三个变量间的比例关系。常用于物理化学、 岩石学、矿物学、冶金学和其它物理科学,用于表示在同
阅读全文
摘要:火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化。由于它的形成像火山喷发的样子,所以被称为火山图。和上文讲的曼哈顿图类似。 火山图基本元素 火山图也有很多种样式,在生物学高通量测序结果中,常见有的X和Y轴分别为aboundance 和 fold-c
阅读全文
摘要:韦恩图 Venn Diagram Venn Diagram,也称韦恩图、维恩图、文氏图,用于显示元素集合重叠区域的图示。 韦图绘制工具 常用R语言的VennDiagram包绘制,输出PDF格式方便修改。此外还有非常多的在线工具,使用方便。详见“轻松绘制各种Venn图” 韦恩图在扩增子中用途 展示各样
阅读全文
摘要:曼哈顿图 Manhattan Plot 曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点。它得名源于样式与曼哈顿天际线相似(如下图)。 近几年,在宏基因组领域,尤其是差异OTU结合分类学结果,采用Manhattan plot展示有
阅读全文
摘要:热图是使用颜色来展示数值矩阵的图形。通常还会结合行、列的聚类分析,以表达实验数据多方面的结果。 热图在生物学领域应用广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩阵非常适合采用热图呈现。 热图优点 因为人读数字需要思考和比较,而对颜色识别能力非常强,采用颜色的深浅
阅读全文
摘要:散点图 数据点在直角坐标系平面上的分布图。在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CPCoA/CCA/RDA)。 Beta多样性 Beat多样性是生态学概念,专指不同组或生态位间物种组成
阅读全文
摘要:查看默认安装包的位置 移除包 remove.packages("package_name") 查看所有安装的包 移除包 remove.packages("package_name") 查看所有安装的包 按 q 退出包列表 获取当前在R环境中加载的所有包 search() 获取当前在R环境中加载的所有
阅读全文
摘要:有时候可能想分解出某些值然后丢弃它们,可以使用诸如 _ 或者 ign(ignored)等常用来表示待丢弃值的变量名: record = ('ACME', 50, 123.45, (12, 18, 2012))name, *_, (*_, year) = recordprint(name)print(
阅读全文
摘要:如果要进行整除,使用 // 运算符,它将返回商的整数部分 >>> 4 // 3.01.0 Python中单行注释以 # 开头,例如: 多行注释用三个单引号 ''' 或者三个双引号 """ 将注释括起来,例如: '''这是多行注释,用三个单引号这是多行注释,用三个单引号 这是多行注释,用三个单引号''
阅读全文
摘要:1、下载jdk8 登录网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择对应jdk版本下载 2、解压 3、然后将文件夹jdk1.8.0_144移动到目录/opt下 4、修改
阅读全文
摘要:启动docker docker安装后出现Cannot connect to the Docker daemon You need to add user into docker group. by 'sudo gpasswd -a xxxx docker' (xxx is your user nam
阅读全文
摘要:登录Linux系统后,呈现在眼前的是这样一个界面: fs@ehbio:~ 首先解释下出现的这几个字母和符号: fs:用户名 ehbio:如果是登录的远程服务器,则为宿主机的名字 ~:代表家目录, 在我们进入新的目录后,这个地方会跟着改变 :用来指示普通用户输入命令的地方;对根用户来说一般是 #
阅读全文
摘要:箱线图 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布 箱线图 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。
阅读全文
摘要:一些常用基本概念的介绍: flowcell流动池 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane lane通道 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等 tile 每一次测序荧光扫描的最小单位 reads 指测序的结果,1条序列
阅读全文
摘要:2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+;可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测。 临床上使
阅读全文
摘要:本示例的的数据来自文章《Moving pictures of the human microbiome》,Genome Biology 2011,取样来自两个人身体四个部位五个时间点 进入环境 source activate qiime2-2017.8 退出环境 source deactivate
阅读全文
摘要:宏基因组测序: 浓度>=50ng/ul OD260/280:1.8-2.0 DNA两次需要量>=3ug 宏基因组测序需要提供什么样品要求? (1)提供环境微生物的基因组DNA或者扩增产物,OD值在1.8~2.0 之间;样品浓度大于30 ng/ul;每次样品制备需要10μg样品,如果需要多次制备样品,
阅读全文
摘要:kb=千碱基 kilobase nt=核苷酸 nucleotide bp=碱基对 base pair kb=千碱基 kilobase nt=核苷酸 nucleotide bp=碱基对 base pair 高通量测序 高通量测序技术(High-throughput sequencing,HTS),有些
阅读全文
摘要:一套完整的数据分析流程 , 如下图所示 从图中可以看到,整个流程包括读取数据,整洁数据,数据探索和交流部分。经过前两部分, 我们可以得到一个整理好的数据,它的每一行都是一个样本 , 每一列是一个变量。 然后我们就可以进入最核心的数据探索部分。数据探索包括数据转换,可视化,建模三部分。数据转换的内容包
阅读全文
摘要:获取帮助文档,查看命令或函数的使用方法、事例或适用范围 > ?command > ??command #深度搜索或模糊搜索用此命令 > example(command) #得到命令的例子 R语言不支持多行注释,但可以使用一个小技巧,如下 if(FALSE) { "This is a demo for
阅读全文
摘要:矩阵加法就是相同位置的数字加一下,矩阵减法也类似 矩阵乘以一个常数,就是所有位置都乘以这个数 矩阵乘以一个常数,就是所有位置都乘以这个数 矩阵乘以矩阵 计算规则是,第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1),
阅读全文
摘要:条形图 在R语言中创建条形图的基本语法是 barplot(H, xlab, ylab, main, names.arg, col) H是包含在条形图中使用的数值的向量或矩阵 xlab是x轴的标签 ylab是y轴的标签 main是条形图的标题 names.arg是在每个条下出现的名称的向量 col用于
阅读全文
摘要:安装软件 卸载软件 卸载并清除配置 更新软件信息数据库 进行系统升级 搜索软件包 安装deb软件包 删除软件包 连同配置文件一起删除 查看软件包信息 查看文件拷贝详情 查看系统中已安装软件包信息 重新配置软件包
阅读全文