摘要: 内容概览 尽管R是一门以数值向量和矩阵为核心的统计语言,但字符串有时候也会在数据分析中占到相当大的份量。 R语言是一个擅长处理数据的语言,但是也不可避免的需要处理一些字符串(文本数据)。如何高效地处理文本数据,将看似杂乱无章的数据整理成可以进行统计分析的规则数据,是『数据玩家』必备的一项重要技能。 阅读全文
posted @ 2017-03-22 19:02 holy_black_cat 阅读(113326) 评论(1) 推荐(2) 编辑
摘要: 有5个基础的函数: - filter - select - arrange - mutate - summarise - group_by (plus) 可以和databases以及data tables中的数据打交道。 plyr包的特点 其基础函数有以下特点: 正是因为有这些特点,才可以使用%>% 阅读全文
posted @ 2017-03-22 19:00 holy_black_cat 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 本文将介绍dplyr包的下述五 阅读全文
posted @ 2017-03-22 18:59 holy_black_cat 阅读(442) 评论(0) 推荐(0) 编辑
摘要: Julia是一款高级高效为技术计算(technical computing)而设计的编程语言,其语法与其他计算环境类似。其为分布式计算和并行所设计,最知名的地方在于其接近C语言的高效率。 按开发者的话说,“我们希望这门开源语言像C一样快…像Python一样通用,像R做统计那么简单,像Perl做文本处 阅读全文
posted @ 2017-03-22 18:54 holy_black_cat 阅读(1767) 评论(0) 推荐(0) 编辑
摘要: R用Sys.time()可以查看当前系统时间程序开始时记录: timestart<-Sys.time()程序临结束时记录: timeend<-Sys.time()程序运行时间: runningtime<-timeend-timestart函数中输出运行时间: print(runningtime) 举 阅读全文
posted @ 2017-03-22 18:52 holy_black_cat 阅读(1693) 评论(0) 推荐(0) 编辑
摘要: 分组统计 1、假定有一组成绩数据,要求根据性别进行分组统计: > score ID score1 score2 Gender1 101 11.35321 0.9 male2 102 12.58654 0.6 male3 103 19.79380 0.9 female4 104 12.01352 0. 阅读全文
posted @ 2017-03-22 18:51 holy_black_cat 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 这里用到 eval() 和 parse() 函数。首先使用 parse() 函数将字符串转化为表达式(expression),而后使用 eval() 函数对表达式求解。x <- 1:10a <- "print(x)"class (a)eval(parse(text = a))R语言如何将字符串转变为 阅读全文
posted @ 2017-03-22 18:51 holy_black_cat 阅读(5287) 评论(0) 推荐(0) 编辑
摘要: options(warn =-1) 阅读全文
posted @ 2017-03-22 18:50 holy_black_cat 阅读(1129) 评论(0) 推荐(0) 编辑
摘要: 作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
posted @ 2017-03-22 18:49 holy_black_cat 阅读(2087) 评论(1) 推荐(0) 编辑
摘要: R语言:变量名称和字符串的转换 R语言:变量名称和字符串的转换 2014-06-23 14:45:27 在R语言中,经常会遇到变量名称和字符串相互转换的问题。比如说,进行1000次循环运算,并将运算结果存储在1000个变量中,如x_1, x_2, ... , x_1000。这时候可以使用assign 阅读全文
posted @ 2017-03-22 18:49 holy_black_cat 阅读(13600) 评论(0) 推荐(0) 编辑
摘要: dat <- sample(1:100000, 47)breaks <- seq(0, 100000, by = 10000)dat2 <- cut(dat, breaks = breaks)table(dat2) 阅读全文
posted @ 2017-03-22 18:47 holy_black_cat 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 一、R语言实现数据的分组求和 实验数据集 姓名,年龄,班级 ,成绩, 科目 [html] view plain copy student <- data.frame ( name = c("s1", "s2", "s3", "s2", "s1", "s3"), age = c(12, 13, 10, 阅读全文
posted @ 2017-03-22 18:46 holy_black_cat 阅读(1965) 评论(2) 推荐(0) 编辑
摘要: 1. rbind(), cbind(): 构造、合并vector 或matrix为一个矩阵:cbind(1, 1:10) 默认列合并, rbind(1, 1:10) 行合并(or构造) 2. R语言中关于矩阵,向量的一些运算 ① 矩阵相乘使用“%*%”,而不是"*", 矩阵与向量,向量与向量相乘最好 阅读全文
posted @ 2017-03-22 18:45 holy_black_cat 阅读(4944) 评论(0) 推荐(0) 编辑