随笔分类 -  R编程

摘要:想做一个简单的分组折线图,并添加误差棒,类似下面这样的: 用ggplot似乎很简单就能实现: ,重点在于计算误差棒。 还是看示例数据吧: Type是转录和蛋白两个组学,Region是某个组织的不同区域。想作如上图的样子,即不同区域在两个组学的折线图分布。 计算误差需要安装Rmisc包中的summar 阅读全文
posted @ 2019-09-01 21:56 生物信息与育种 阅读(10017) 评论(0) 推荐(0) 编辑
摘要:dplyr的优点很明显,数据框操作简洁,如 等于 。然而优点也是缺点,因为它的的参数不是透明的,这意味着你不能用一个看似等价的对象代替一个在别处定义的值。 自然想到编写类似下面的函数: my_summarise % group_by(group_var) % % summarise(a = mean 阅读全文
posted @ 2019-09-01 21:55 生物信息与育种 阅读(834) 评论(1) 推荐(0) 编辑
摘要:关于这两个函数,官方是这么定义的: substitute returns the parse tree for the (unevaluated) expression expr, substituting any variables bound in env. quote simply retur 阅读全文
posted @ 2019-09-01 21:54 生物信息与育种 阅读(1018) 评论(0) 推荐(0) 编辑
摘要:tidyverse系列的R包虽然解放了大家的双手,但同时也束缚了我们重新编写函数的能力。在这一套语法中,要实现作为函数参数的字符串和变量之间的相互转换困难重重,但只要掌握了其中原理后,也就能够游刃有余地处理了。 首先要理解基础R中几个重要又易忽略的函数。 eval 简言之就是: 对表达式对象的求值 阅读全文
posted @ 2019-09-01 21:53 生物信息与育种 阅读(592) 评论(0) 推荐(0) 编辑
摘要:一般我们使用pheatmap通过Rstudio交互得到的图片在plots的Export导出即可,如何保存对象到文件呢?这个需求在自动化流程中很常见,作者似乎也没说明。 生成示例数据: 看下数据亚子: 实现方法 接下来实现方法,分为两步: 1.保存对象 library(pheatmap) xx Ref 阅读全文
posted @ 2019-08-15 23:35 生物信息与育种 阅读(5316) 评论(0) 推荐(0) 编辑
摘要:字符串操作的函数(如contains),很多都包含ignore.case参数,默认是T,即不分大小写,稍不注意就会掉坑里,最好的习惯是下意识地加入这个参数。 举个例子: 我要选择An的列,就用下面这个 可以看到把转录本ID也选进去了,不检查的话后续就会出错了。所以下意识地用ignore.case参数 阅读全文
posted @ 2019-08-15 23:29 生物信息与育种 阅读(1490) 评论(0) 推荐(0) 编辑
摘要:这个需求真的太常见了!注意问题强调的几个关键词:一是快速,二是大量,三是差异明显。在生成大量元素比较图时要明显区分不同样本,比如宏基因组中的物种分析: 方法一:自定义 自定义颜色:优点是选择差异明显的颜色,缺点是费时费力,不知选多少种,眼睛都要挑花。 R的颜色板很多网站都可以查,随意搜一个贴上:ht 阅读全文
posted @ 2019-08-15 23:27 生物信息与育种 阅读(4599) 评论(0) 推荐(0) 编辑
摘要:前言 这是代谢组学数据分析的一个R包,包括用于代谢组学数据分析、可视化和功能注释等众多功能。最近有同事在集群中搭建蛋白和代谢流程,安装这个包出现了问题,于是我折腾了一上午。 这个包的介绍在: "https://github.com/xia lab/MetaboAnalystR" ,安装确实还比较复杂 阅读全文
posted @ 2019-07-17 16:01 生物信息与育种 阅读(3951) 评论(0) 推荐(0) 编辑
摘要:select函数 dplyr包select函数用的很多,不过我们一般也是通过正反选列名或数字来选择列。 常见用法如: 实际应用中我们加上一些 辅助函数 会更加得心应手。 这些函数有: mutate Ref: "http://www.bioinfo scrounger.com/archives/405 阅读全文
posted @ 2019-07-14 21:48 生物信息与育种 阅读(3648) 评论(0) 推荐(0) 编辑
摘要:做了个两组间的Kruskal wallis检验,出现如下错误: 对应的英文版本错误为: 一下果然都是 。 这是因为我的 变量是字符串而非因子。is.finite函数不能是字符串对象。 。因此转化为因子,成功: 阅读全文
posted @ 2019-06-28 23:36 生物信息与育种 阅读(1173) 评论(0) 推荐(0) 编辑
摘要:R怎么 同时 保存 等多种格式的图片? 如果是 对象,用 用两下就行,如果不是呢? 组合 是通常保存方法,但一个组合只能保存一个图片。要想保存多个图像,生成图片的对象需要多次生成,要是一个简单的作图脚本还好,复制粘贴就行,如果是很长很复杂的作图脚本呢?如果是循环批量作图呢? 非 对象绘图且同时生成 阅读全文
posted @ 2019-06-28 22:25 生物信息与育种 阅读(5132) 评论(0) 推荐(0) 编辑
摘要:前言 合并数据框有重复匹配时通常会返回所有的匹配,如何只保留匹配的第一行呢?其实这个需求也很常见。如芯片探针ID和基因ID往往多对一,要合并ID对应矩阵和芯片表达矩阵时。 数据例子 数据长这样: 想要这样的结果: 错误的尝试 试了不少方法,以下都是达不到需求的: 正确方法 通过网上查找,找到了如下实 阅读全文
posted @ 2019-06-23 13:55 生物信息与育种 阅读(3197) 评论(0) 推荐(0) 编辑
摘要:前言 R对windows使用很友好,对Linux来说充满了敌意。小数据可以在windows下交互操作,效果很好很棒。可是当我们要处理大数据,或者要在集群上搭建pipeline时,不得不面对在Linux上装R及想要的R包这个难题,尤其是对非root用户而言更是艰难重重。 准备依赖库 依次安装:zlib 阅读全文
posted @ 2019-06-06 14:57 生物信息与育种 阅读(40675) 评论(1) 推荐(2) 编辑
摘要:R数据科学(R for Data Science) Part 3:编程 转换——可视化——模型 第13章 使用magrittr进行管道操作 第14章 函数 一段代码复制粘贴超过2次,就应该考虑写一个函数 创建一个函数名称 列出函数输入,即参数 将已经编好的代码放在函数体中 简单输入测试 rescal 阅读全文
posted @ 2019-05-26 18:16 生物信息与育种 阅读(631) 评论(0) 推荐(0) 编辑
摘要:R数据科学(R for Data Science) Part 2:数据处理 导入—— 整理—— 转换 第7章 使用tibble实现简单数据框 第8章 使用readr进行数据导入 第10章 使用stringr处理字符串 第11章 使用forcats处理因子 阅读全文
posted @ 2019-05-26 18:08 生物信息与育种 阅读(481) 评论(0) 推荐(0) 编辑
摘要:R数据科学(R for Data Science) Part 1:探索 by: PJX for 查漏补缺 exercise: https://jrnold.github.io/r4ds exercise solutions 前言 第1章 使用ggplot2进行数据可视化 第2章 工作流:基础 补充: 阅读全文
posted @ 2019-05-26 18:00 生物信息与育种 阅读(969) 评论(0) 推荐(0) 编辑
摘要:R 语言实战(第二版) part 5 1 技能拓展 第19章 使用ggplot2进行高级绘图 R R的四种图形系统: ①base:基础图形系统 ②grid图形系统: grid包,灵活,无完整绘图函数,适用开发者 ③lattice包:适用网格图形,即多变量/水平关系。基于grid包 ④ggplot2包 阅读全文
posted @ 2019-04-04 23:59 生物信息与育种 阅读(504) 评论(0) 推荐(0) 编辑
摘要:R 语言实战(第二版) part 5 2 技能拓展 第21章创建包 R 包是一套函数、文档和数据的合集,以一种标准的格式保存 1.测试npar包。进行非参组间比较 pkg ' @examples ' results 当前目录寻找.Rprofile,若没找到该文件,则到用户主目录HOME中去找 Sys 阅读全文
posted @ 2019-04-04 23:59 生物信息与育种 阅读(658) 评论(0) 推荐(0) 编辑
摘要:R 语言实战(第二版) part 4 高级方法 第13章 广义线性模型 R 前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态分布 广义线性模型对非正态因变量的分析进行扩展:如类别型变量、计数型变量(非负有限值) glm函数,对于类别型因变量用logistic回归,计数型因变量用泊松回 阅读全文
posted @ 2019-04-04 23:58 生物信息与育种 阅读(1071) 评论(0) 推荐(0) 编辑
摘要:R 语言实战(第二版) part 3 中级方法 第8章 回归 R 概念:用一个或多个自变量(预测变量)来预测因变量(响应变量)的方法 最常用:OLS——普通最小二乘回归法,包括简单线性回归、多项式回归、多元线性回归 过程:拟合OLS回归模型—— 评价拟合优度—— 假设检验—— 选择模型 OLS回归 阅读全文
posted @ 2019-04-04 23:57 生物信息与育种 阅读(1360) 评论(0) 推荐(0) 编辑