03 2017 档案

摘要:spark1.4.0的sparkR的思路:用Spark从大数据集中抽取小数据(sparkR的DataFrame),然后到R里分析(DataFrame)。 这两个DataFrame是不同的,前者是分布式的,集群上的DF,R里的那些包都不能用;后者是单机版的DF,包里的函数都能用。 sparkR的开发计 阅读全文
posted @ 2017-03-30 13:43 holy_black_cat 阅读(366) 评论(0) 推荐(0) 编辑
摘要:脚本内为单独函数时 调用脚本不执行 所以要在脚本内调取特定函数 阅读全文
posted @ 2017-03-29 10:32 holy_black_cat 阅读(146) 评论(0) 推荐(0) 编辑
摘要:#R语言大小写字母转换 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz R语言有很丰富的程序包处理生物学信息及问题,如DNA等大分子数据,然后往往遇到将碱基符号在大小写字母间转化的问题,下 阅读全文
posted @ 2017-03-28 18:46 holy_black_cat 阅读(18771) 评论(0) 推荐(0) 编辑
摘要:SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论 下载为PDF 为什么不允许复制 关注iteblog_hadoop公众号,并在这里评论区留言并且留言点赞数排名前5名的粉丝,各免费赠送一本《大数据时代的算法:机器学习、人工智能及其典型实例》,活动截止至 阅读全文
posted @ 2017-03-28 15:58 holy_black_cat 阅读(716) 评论(0) 推荐(0) 编辑
摘要:SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论 下载为PDF 为什么不允许复制 关注iteblog_hadoop公众号,并在这里评论区留言并且留言点赞数排名前5名的粉丝,各免费赠送一本《大数据时代的算法:机器学习、人工智能及其典型实例》,活动截止至 阅读全文
posted @ 2017-03-28 15:57 holy_black_cat 阅读(559) 评论(0) 推荐(0) 编辑
摘要:table可统计数据的频数 tapply可根据因子、向量和要计算的函数计算 > class<-c(1,2,3,2,1,2,1,3) > class[1] 1 2 3 > c(81,65,72,88,73,91,56,90)->student> class[1] 1 2 3 2 1 2 1 3 >fa 阅读全文
posted @ 2017-03-28 13:17 holy_black_cat 阅读(591) 评论(0) 推荐(0) 编辑
摘要:一、table 函数对应的就是统计学中的列联表,是一种记录频数的方法,对于统计来说有非常重要的应用,下面的例子都是针对维数为2的情况举例,多维的情况是类似的 下面看一个例子: [html] view plain copy > ct <- data.frame( + Vote.for.X = fact 阅读全文
posted @ 2017-03-28 12:42 holy_black_cat 阅读(301) 评论(0) 推荐(0) 编辑
摘要:例如有X1,X2,..,Xn个变量,我需要对每一个变量进行频次统计,如果一个一个求解的话非常麻烦,如table(X1), table(X2), ... ,table(Xn)。有没有简单的语句一次性求解?谢谢 假定你X1,X2,...Xn都是一个data frame(df)中的列的话,那么:lapply(df, table) 阅读全文
posted @ 2017-03-28 12:41 holy_black_cat 阅读(644) 评论(0) 推荐(0) 编辑
摘要:在R语言中,常需要看哪个包加载了或是看多个相似功能的包,看到底是哪个包在起作用,通过加载和卸除后进行运行比较分析。 1、查看已加载的包 >(.packages()) 注意外面的括号和前面的点不能省。 2、卸除已加载的包 如卸除RMySQL包 >detach("package:RMySQL") 注意是 阅读全文
posted @ 2017-03-28 12:40 holy_black_cat 阅读(21729) 评论(0) 推荐(2) 编辑
摘要:R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with Rpackages:tidyr dplyr 阅读全文
posted @ 2017-03-28 12:39 holy_black_cat 阅读(591) 评论(0) 推荐(0) 编辑
摘要:判断ori_data[,1]中是否存在元素a: a %in% ori_data[,1] 如果存在返回 true,否则返回 false 判断ori_data[,1]中是否存在元素a: a %in% ori_data[,1] 如果存在返回 true,否则返回 false 阅读全文
posted @ 2017-03-28 12:38 holy_black_cat 阅读(8945) 评论(0) 推荐(0) 编辑
摘要:主要学习如何把几种常用的数据格式导入到R中进行处理,并简单介绍如何把R中的数据保存为R数据格式和csv文件。1、保存和加载R的数据(与R.data的交互:save()函数和load()函数)a <- 1:10save(a, file = "data/dumData.Rdata") # data文件为 阅读全文
posted @ 2017-03-28 12:35 holy_black_cat 阅读(3597) 评论(0) 推荐(0) 编辑
摘要:之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了。里面涉及了一些报错的处理。 这里主要参考了stackoverflow上的以下问答: tryCatch部分,后续查找资料,发现以下博文: 1. R语言使用tryCatch进行简单的错误 阅读全文
posted @ 2017-03-28 11:16 holy_black_cat 阅读(1122) 评论(0) 推荐(0) 编辑
摘要:Reading and writing RData files When using R, you can save and load data sets as *.rdata files. These can be easily exported and consumed using the R 阅读全文
posted @ 2017-03-28 11:15 holy_black_cat 阅读(334) 评论(0) 推荐(0) 编辑
摘要:你希望知道目前工作空间中存在哪些已定义的变量和函数。 解决方案 使用ls函数,或者使用ls.str函数了解每个变量更详细的信息。 讨论 ls函数可以显示当前工作空间中所有对象的名称:> x <- 10> y <- 50> z <- c("three", "blind", "mice")> f <- 阅读全文
posted @ 2017-03-28 11:09 holy_black_cat 阅读(13951) 评论(0) 推荐(2) 编辑
摘要:该函数和excel中的&一样,可以将不同类型的数据放在一起。 paste(....,sep="",collapse=NULL) ...表示要加在一起的数据类型,e.g ​p<-paste("b",1:5) "b 1" "b 2" "b 3" "b 4" "b 5" 注意这里每一项中间有空格隔开,如果 阅读全文
posted @ 2017-03-28 11:08 holy_black_cat 阅读(3189) 评论(0) 推荐(0) 编辑
摘要:1.变量变换 as.array(x),as.data.frame(x),as.numeric(x),as.logical(x),as.complex(x),as.character(x),...转换变量类型;使用如下命令可得到全部列表,methods(as) factor():将一个向量转化为一个因 阅读全文
posted @ 2017-03-28 11:07 holy_black_cat 阅读(1322) 评论(0) 推荐(0) 编辑
摘要:最近在看《机器学习:实用案例解析》,做邮件过滤器的时候,参考书中的代码读取邮件文件进行分类器训练,在读取过程中会出现下面的错误: seq.default(which(text == "")[1] + 1, length(text), 1) : 'from' cannot be NA, NaN or 阅读全文
posted @ 2017-03-28 11:06 holy_black_cat 阅读(9925) 评论(0) 推荐(0) 编辑
摘要:———————————————————————————————————— 1、循环 [plain] view plain copy print? ##循环for iris allzl=unique(iris$setosa) for (i in 1:2){ pp=iris[iris$setosa==a 阅读全文
posted @ 2017-03-28 11:05 holy_black_cat 阅读(4509) 评论(0) 推荐(1) 编辑
摘要:jishu <- function(x){ ifelse(x%%2 ==0,F,T)} 阅读全文
posted @ 2017-03-28 11:04 holy_black_cat 阅读(4718) 评论(0) 推荐(0) 编辑
摘要:已解决,用grep函数 A=read.table("clipboard",sep="/t",header=T) A[grep(pattern="/resource/activity",A[,1]),] 已解决,用grep函数A=read.table("clipboard",sep="/t",header=T)A[grep(pattern="/resource/activity"... 阅读全文
posted @ 2017-03-28 11:03 holy_black_cat 阅读(14699) 评论(0) 推荐(0) 编辑
摘要:objects.size() objects() 脚本举例 #将以下代码粘贴到编辑器中,另存为regression.r文件。 rate<-c(20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42) impurity <-c(8.4, 9.5, 11.8, 10 阅读全文
posted @ 2017-03-28 11:02 holy_black_cat 阅读(693) 评论(0) 推荐(0) 编辑
摘要:Create table function in Spark in R not working João_Andre (3) 询问的问题 | 2016年12月10日 06:03BLUEMIXRSPARK Hello, I'm trying to create a simple table in Bl 阅读全文
posted @ 2017-03-28 10:57 holy_black_cat 阅读(597) 评论(0) 推荐(0) 编辑
摘要:1、在Windows 系统下,很多软件安装都需要配置环境变量,比如 安装 jdk ,如果不配置环境变量,在非软件安装的目录下运行javac 命令,将会报告找不到文件,类似的错误。 2、那么什么是环境变量?简单说,就是指定一个目录,运行软件的时候,相关的程序将会按照该目录寻找相关文件。 设置变量对于一 阅读全文
posted @ 2017-03-28 10:52 holy_black_cat 阅读(1042) 评论(0) 推荐(0) 编辑
摘要:在sparkR在配置完成的基础上,本例采用Spark on yarn模式,介绍sparkR运行的一个例子。 在spark的安装目录下,/examples/src/main/r,有一个dataframe.R文件。该文件默认是在本地的模式下运行的,不与hdfs交互。可以将脚本进行相应修改,提交到yarn 阅读全文
posted @ 2017-03-28 10:52 holy_black_cat 阅读(203) 评论(0) 推荐(0) 编辑
摘要:用source函数代替繁冗的R语言打包过程 经过初级的学习和使用R语言之后我们渐渐的开始动手写自己的R语言小程序,这些小程序因为和自己的工作非常契合而变得通用性不是那么强。因此,要让它们成为一个独立的软件包而被杂志接受或者让更多的人使用似乎欠缺点火后。但是却在我们的日常工作经常要使用到这些函数代码。 阅读全文
posted @ 2017-03-28 10:51 holy_black_cat 阅读(1821) 评论(0) 推荐(0) 编辑
摘要:一、在windows下使用Rscript: 1.进入cmd.exe下,将当前工作目录转到Rscript.exe所在目录下面,然后调用Rscript **.R文件即可。但是所调用的.R文件必须是在R的工作目录下,也就是和Rscript.exe在同一个文件夹内(Rscript默认情况下是不保存工作空间的 阅读全文
posted @ 2017-03-28 10:50 holy_black_cat 阅读(20937) 评论(0) 推荐(1) 编辑
摘要:shell中调用R语言并传入参数的两种方法 第一种: R脚本的输出 第二种: 调用R脚本的全部控制台log 传入参数: 在脚本中add 然后shell中: 注意取出来的参数是所有参数连在一起的character 阅读全文
posted @ 2017-03-28 10:49 holy_black_cat 阅读(4853) 评论(0) 推荐(0) 编辑
摘要:比较运算:>,<,>=,<=,==,!=。(大于,小于,大于等于,小于等于,等于,不等于。)逻辑运算:&,|,!。(与,或,非。) 阅读全文
posted @ 2017-03-27 15:02 holy_black_cat 阅读(8403) 评论(0) 推荐(0) 编辑
摘要:R中ifelse、which、%in%的用法 (2014-02-08 13:54:08)标签: 教育 在R学习过程中,遇到了ifelse、which、%in%,下面分别举例,说明他们的用法。1、ifelseifelse(test, yes, no)test为真,输出yes值,否则输出no值。举例如下 阅读全文
posted @ 2017-03-27 14:52 holy_black_cat 阅读(1210) 评论(0) 推荐(0) 编辑
摘要:首先指定 load结果为一个对象 然后此对象的值 即为 str的 数据表名 然后使用 eval(parse(text = l)) 两个函数 将字符串 转可执行对象 即可完成重新赋值 > l <- load("D:\\work\\task\\task_data\\02_12306\\get_infle 阅读全文
posted @ 2017-03-27 14:29 holy_black_cat 阅读(9128) 评论(0) 推荐(0) 编辑
摘要:# Goals: To write functions # To write functions that send back multiple objects. # FIRST LEARN ABOUT LISTS -- X = list(height=5.4, weight=54) print(" 阅读全文
posted @ 2017-03-27 14:26 holy_black_cat 阅读(18044) 评论(0) 推荐(0) 编辑
摘要:sparkR默认是以单机方式运行的。实现sparkR的集群启动,需要指定master地址,占用内存、CPU,及UI端口等,这对分析人员来说是比较麻烦的。 如何实现对其启动的封装,方便分析人员来使用: vi bdcmagicR #!/bin/bash function rand(){ min=$1 m 阅读全文
posted @ 2017-03-24 16:58 holy_black_cat 阅读(363) 评论(0) 推荐(0) 编辑
摘要:之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了。里面涉及了一些报错的处理。 这里主要参考了stackoverflow上的以下问答: tryCatch部分,后续查找资料,发现以下博文: 1. R语言使用tryCatch进行简单的错误 阅读全文
posted @ 2017-03-24 15:22 holy_black_cat 阅读(5209) 评论(0) 推荐(0) 编辑
摘要:get_range <- function(data_name , row_name){ library(stringr) load(data_name) data_str <- str_replace(a,".Rdata" ,"") data <- eval(parse(text = data_s 阅读全文
posted @ 2017-03-24 14:47 holy_black_cat 阅读(225) 评论(0) 推荐(0) 编辑
摘要:在R语言中,通常有一些操作符可以来提取对象的子集,如以下三种:1、“[” 单层方括号,返回的对象与原对象类型相同,它也可以返回一个对象中的多个元素;2、“[[” 双层方括号,用来从列表(list)或数据框(data frame)中提取元素;也可从列表或数据框中提取单个元素,且返回对象的类型可以不为列 阅读全文
posted @ 2017-03-24 14:32 holy_black_cat 阅读(310) 评论(0) 推荐(0) 编辑
摘要:《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包,其中包括用ggplot2包来绘图,用glmnet包做回归,用tm包进行文本挖掘,用plyr、reshape、lubridate和st 阅读全文
posted @ 2017-03-24 14:03 holy_black_cat 阅读(589) 评论(0) 推荐(0) 编辑
摘要:环境设置函数为options(),用options()命令可以设置一些环境变量,使用help(options)可以查看详细的参数信息。 1. 数字位数的设置,options(digits=n),n一般默认情况下是7位,但实际上的范围是1~22,可以随意设置位数。 2. 扩展包的安装,使用下面的命令, 阅读全文
posted @ 2017-03-24 11:20 holy_black_cat 阅读(20426) 评论(0) 推荐(1) 编辑
摘要:内容概览 尽管R是一门以数值向量和矩阵为核心的统计语言,但字符串有时候也会在数据分析中占到相当大的份量。 R语言是一个擅长处理数据的语言,但是也不可避免的需要处理一些字符串(文本数据)。如何高效地处理文本数据,将看似杂乱无章的数据整理成可以进行统计分析的规则数据,是『数据玩家』必备的一项重要技能。 阅读全文
posted @ 2017-03-22 19:02 holy_black_cat 阅读(113583) 评论(1) 推荐(2) 编辑
摘要:有5个基础的函数: - filter - select - arrange - mutate - summarise - group_by (plus) 可以和databases以及data tables中的数据打交道。 plyr包的特点 其基础函数有以下特点: 正是因为有这些特点,才可以使用%>% 阅读全文
posted @ 2017-03-22 19:00 holy_black_cat 阅读(340) 评论(0) 推荐(0) 编辑
摘要:是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 本文将介绍dplyr包的下述五 阅读全文
posted @ 2017-03-22 18:59 holy_black_cat 阅读(453) 评论(0) 推荐(0) 编辑
摘要:Julia是一款高级高效为技术计算(technical computing)而设计的编程语言,其语法与其他计算环境类似。其为分布式计算和并行所设计,最知名的地方在于其接近C语言的高效率。 按开发者的话说,“我们希望这门开源语言像C一样快…像Python一样通用,像R做统计那么简单,像Perl做文本处 阅读全文
posted @ 2017-03-22 18:54 holy_black_cat 阅读(1823) 评论(0) 推荐(0) 编辑
摘要:R用Sys.time()可以查看当前系统时间程序开始时记录: timestart<-Sys.time()程序临结束时记录: timeend<-Sys.time()程序运行时间: runningtime<-timeend-timestart函数中输出运行时间: print(runningtime) 举 阅读全文
posted @ 2017-03-22 18:52 holy_black_cat 阅读(1750) 评论(0) 推荐(0) 编辑
摘要:分组统计 1、假定有一组成绩数据,要求根据性别进行分组统计: > score ID score1 score2 Gender1 101 11.35321 0.9 male2 102 12.58654 0.6 male3 103 19.79380 0.9 female4 104 12.01352 0. 阅读全文
posted @ 2017-03-22 18:51 holy_black_cat 阅读(619) 评论(0) 推荐(0) 编辑
摘要:这里用到 eval() 和 parse() 函数。首先使用 parse() 函数将字符串转化为表达式(expression),而后使用 eval() 函数对表达式求解。x <- 1:10a <- "print(x)"class (a)eval(parse(text = a))R语言如何将字符串转变为 阅读全文
posted @ 2017-03-22 18:51 holy_black_cat 阅读(5342) 评论(0) 推荐(0) 编辑
摘要:options(warn =-1) 阅读全文
posted @ 2017-03-22 18:50 holy_black_cat 阅读(1137) 评论(0) 推荐(0) 编辑
摘要:作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
posted @ 2017-03-22 18:49 holy_black_cat 阅读(2101) 评论(1) 推荐(0) 编辑
摘要:R语言:变量名称和字符串的转换 R语言:变量名称和字符串的转换 2014-06-23 14:45:27 在R语言中,经常会遇到变量名称和字符串相互转换的问题。比如说,进行1000次循环运算,并将运算结果存储在1000个变量中,如x_1, x_2, ... , x_1000。这时候可以使用assign 阅读全文
posted @ 2017-03-22 18:49 holy_black_cat 阅读(13636) 评论(0) 推荐(0) 编辑
摘要:dat <- sample(1:100000, 47)breaks <- seq(0, 100000, by = 10000)dat2 <- cut(dat, breaks = breaks)table(dat2) 阅读全文
posted @ 2017-03-22 18:47 holy_black_cat 阅读(169) 评论(0) 推荐(0) 编辑
摘要:一、R语言实现数据的分组求和 实验数据集 姓名,年龄,班级 ,成绩, 科目 [html] view plain copy student <- data.frame ( name = c("s1", "s2", "s3", "s2", "s1", "s3"), age = c(12, 13, 10, 阅读全文
posted @ 2017-03-22 18:46 holy_black_cat 阅读(2005) 评论(2) 推荐(0) 编辑
摘要:1. rbind(), cbind(): 构造、合并vector 或matrix为一个矩阵:cbind(1, 1:10) 默认列合并, rbind(1, 1:10) 行合并(or构造) 2. R语言中关于矩阵,向量的一些运算 ① 矩阵相乘使用“%*%”,而不是"*", 矩阵与向量,向量与向量相乘最好 阅读全文
posted @ 2017-03-22 18:45 holy_black_cat 阅读(5002) 评论(0) 推荐(0) 编辑
摘要:R用Sys.time()可以查看当前系统时间程序开始时记录: timestart<-Sys.time()程序临结束时记录: timeend<-Sys.time()程序运行时间: runningtime<-timeend-timestart函数中输出运行时间: print(runningtime) 举 阅读全文
posted @ 2017-03-21 17:47 holy_black_cat 阅读(1862) 评论(0) 推荐(0) 编辑
摘要:plyr包的特点 载入数据 filter select chaining or pipelining arrange mutate summarise Window Functions Other functions Connecting Databases 参考资料 有5个基础的函数: - fil 阅读全文
posted @ 2017-03-21 15:34 holy_black_cat 阅读(394) 评论(0) 推荐(0) 编辑
摘要:生成规则数据1、使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12、seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5) seq还有一种简写:seq(x) #相当于1:length(x),但当length(x)为0时, 阅读全文
posted @ 2017-03-21 15:00 holy_black_cat 阅读(781) 评论(0) 推荐(0) 编辑
摘要:分组统计 1、假定有一组成绩数据,要求根据性别进行分组统计: > score ID score1 score2 Gender1 101 11.35321 0.9 male2 102 12.58654 0.6 male3 103 19.79380 0.9 female4 104 12.01352 0. 阅读全文
posted @ 2017-03-21 14:52 holy_black_cat 阅读(5611) 评论(0) 推荐(0) 编辑
摘要:本讲教育信息】 一. 教学内容: 导数——平均变化率与瞬时变化率 二. 本周教学目标: 1、了解导数概念的广阔背景,体会导数的思想及其内涵. 2、通过函数图象直观理解导数的几何意义. 三. 本周知识要点: (一)平均变化率 1、情境:观察某市某天的气温变化图 2、一般地,函数f(x)在区间[x1,x 阅读全文
posted @ 2017-03-21 14:42 holy_black_cat 阅读(4776) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。 二、导数 (1) 阅读全文
posted @ 2017-03-21 10:40 holy_black_cat 阅读(869) 评论(0) 推荐(0) 编辑
摘要:梯度不只一种计算公式!不同的方法产生不同的梯度,如采用线性滤波方法,或采用形态学梯度方法…… 梯度定义: (1)采用线性滤波方法求梯度直接按照上述定义。不过“计算梯度的关键问题之一是如何数字化地估计Gx和Gy”,有几种经典的估计方法,如Sobel、Prewitt、Roberts,以Sobel方法为例 阅读全文
posted @ 2017-03-21 10:37 holy_black_cat 阅读(695) 评论(0) 推荐(0) 编辑
摘要:R语言里面一个比较重要的绘图包——ggplot2,是由Hadley Wickham于2005年创建,于2012年四月进行了重大更新,作者目前的工作是重写代码,简化语法,方便用户开发和使用。ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,有利于结构化思维, 阅读全文
posted @ 2017-03-06 12:04 holy_black_cat 阅读(284) 评论(0) 推荐(0) 编辑
摘要:用R作如下的各国Gini系数的Polar barChart: 作上图的R代码为: library(ggplot2) GiniData<- read.csv('IncomeInequality.csv',head=T) Gini<- ggplot(GiniData, aes(x=paste(GiniI 阅读全文
posted @ 2017-03-06 11:53 holy_black_cat 阅读(795) 评论(0) 推荐(0) 编辑
摘要:R语言绘制空间热力图 先上图 R语言的REmap包拥有非常强大的空间热力图以及空间迁移图功能,里面内置了国内外诸多城市坐标数据,使用起来方便快捷。 开始 首先安装相关包 install_packages("devtools") install_packages("REmap") library(de 阅读全文
posted @ 2017-03-06 11:48 holy_black_cat 阅读(3596) 评论(0) 推荐(0) 编辑
摘要:什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎 阅读全文
posted @ 2017-03-06 11:45 holy_black_cat 阅读(868) 评论(0) 推荐(0) 编辑
摘要:什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在 阅读全文
posted @ 2017-03-06 11:45 holy_black_cat 阅读(467) 评论(0) 推荐(0) 编辑
摘要:Usage Arguments Description The bar geom is used to produce 1d area plots: bar charts for categorical x, and histograms for continuous y. stat_bin exp 阅读全文
posted @ 2017-03-06 11:44 holy_black_cat 阅读(299) 评论(0) 推荐(0) 编辑
摘要:Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2017-03-06 11:43 holy_black_cat 阅读(4399) 评论(0) 推荐(0) 编辑
摘要:最近我一直尝试利用R绘制地图,我从网上找到了上百种不同的实现方法,然而其中却没有适用于我的数据的方法。最终,我从以下几个博客【1】中找到了灵感。我在整合这些资源的基础上,通过不断的试验和修正得到了一个较好地解决方案。这个方案就是本篇博文的主要内容。 本篇博文中展示了如何利用 ggplot2 来绘制分 阅读全文
posted @ 2017-03-06 11:42 holy_black_cat 阅读(8820) 评论(0) 推荐(0) 编辑
摘要:R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。 一些读者觉得R语言零碎的东西太多了,无法记住那么多函数和功能,于是就问R语言有没有一种类似于SAS之EM或S 阅读全文
posted @ 2017-03-06 11:40 holy_black_cat 阅读(2908) 评论(0) 推荐(0) 编辑
摘要:一、通过重新构建数据进行整形 数据整形最直接的思路就把数据全部向量化,然后按要求用向量构建其他类型的数据。这样是不是会产生大量的中间变量、占用大量内存?没错。R语言的任何函数(包括赋值)操作都会有同样的问题,因为R函数的参数传递方式是传值不传址,变量不可能原地址修改后再放回原地址。 矩阵和多维数组的 阅读全文
posted @ 2017-03-06 11:39 holy_black_cat 阅读(1382) 评论(0) 推荐(0) 编辑
摘要:ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念。当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理。 本文主要对ggplot2的可视化理念及开发套路做一个总体介绍,具体绘图方法(如折线图,柱状图,箱线图等)将在后面的文章中分别进行讲解。 回到顶部 核 阅读全文
posted @ 2017-03-05 16:26 holy_black_cat 阅读(3987) 评论(0) 推荐(1) 编辑
摘要:在R语言中 paste 是一个很有用的字符串处理函数,可以连接不同类型的变量及常量。 函数paste的一般使用格式为: paste(..., sep = " ", collapse = NULL) 1 1 其中…表示一个或多个R可以被转化为字符型的对象;参数sep表示分隔符,默认为空格;参数coll 阅读全文
posted @ 2017-03-05 14:11 holy_black_cat 阅读(18988) 评论(0) 推荐(0) 编辑
摘要:摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用 阅读全文
posted @ 2017-03-05 14:10 holy_black_cat 阅读(216) 评论(0) 推荐(0) 编辑
摘要:Yeah, that’s probably because the head() you’re invoking there is defined for SparkR DataFrames[1] (note how you don’t have to use the SparkR::: namep 阅读全文
posted @ 2017-03-05 14:09 holy_black_cat 阅读(451) 评论(0) 推荐(0) 编辑
摘要:y<-1:4 data1 <-data.frame(x1=c(1,3,5,7), x2=c(2,4,6,8),x3=c(11,12,13,14),x4=c(15,16,17,18)) data2<-cbind(data1[,1:2],y,data1[,3:ncol(data1)]) 阅读全文
posted @ 2017-03-05 14:08 holy_black_cat 阅读(758) 评论(0) 推荐(0) 编辑
摘要:y<-1:4 data1 <-data.frame(x1=c(1,3,5,7), x2=c(2,4,6,8),x3=c(11,12,13,14),x4=c(15,16,17,18)) data2<-cbind(data1[,1:2],y,data1[,3:ncol(data1)]) 阅读全文
posted @ 2017-03-05 14:07 holy_black_cat 阅读(1010) 评论(0) 推荐(0) 编辑
摘要:目录: 原始图样 如何去除饼图中心的杂点 如何去除饼图旁边的标签 如何去掉左上角多出来的一横线 如何去掉图例的标题,并将图例放到上面 如何对图例的标签加上百分比 如何让饼图的小块按顺时针从大到小的顺序显示 如何去掉白色外框上的数字 如何在图中加百分比 如何生成饼环 (更多内容请见:R、ggplot2 阅读全文
posted @ 2017-03-05 14:05 holy_black_cat 阅读(1705) 评论(0) 推荐(0) 编辑
摘要:我们说Excel有难度的图表,可以考虑ggplot2是否更方便,本帖的例子就是用ggplot做玫瑰图。 Excel做玫瑰图有一定难度,可以使用雷达图或圆环图来构建,我的博客上曾有多个帖子讨论这个,见 1、已被sohu隐藏 2、已被sohu隐藏 3、圆环图做南丁格尔玫瑰图:http://blog.si 阅读全文
posted @ 2017-03-05 14:04 holy_black_cat 阅读(1838) 评论(0) 推荐(0) 编辑
摘要:原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html 在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法。1.查看数据 2.合并数据(1)data.frame(x,y)x,y是d 阅读全文
posted @ 2017-03-05 14:03 holy_black_cat 阅读(476) 评论(0) 推荐(0) 编辑
摘要:write.table(),是保存数据为文件的函数。 得到的1234.txt,打开是这个样子: "x"是列名,"1","2","3"是行名。不输出列名、行名和代表字符串的双引号——加参数:quote = FALSE,row.names = FALSE, col.names = FALSE。 再次得到 阅读全文
posted @ 2017-03-05 10:36 holy_black_cat 阅读(15523) 评论(0) 推荐(0) 编辑
摘要:最全的Spark基础知识解答 最全的Spark基础知识解答 时间:2016-12-12 12:00:50 阅读:19 评论:0 收藏:0 [点我收藏] 原文:http://www.cnblogs.com/sanyuanempire/p/6163732.html 一. Spark基础知识 1.Spar 阅读全文
posted @ 2017-03-02 15:22 holy_black_cat 阅读(304) 评论(0) 推荐(0) 编辑
摘要:sparkR在spark2.0里面,RDD后端代码位于org.apache.spark.rdd中,R语言相关的位于org.apache.spark.api.r中。 从入口开始,./bin/sparkR里面只有四句话,调用的是这个 spark-submit里面是个一句话的shell脚本 好了,入口是o 阅读全文
posted @ 2017-03-02 15:22 holy_black_cat 阅读(278) 评论(0) 推荐(0) 编辑
摘要:以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). 0 初始化0.1 安装 install.packages("dplyr") 0.2 示范数据 lib 阅读全文
posted @ 2017-03-01 17:17 holy_black_cat 阅读(4283) 评论(0) 推荐(0) 编辑
摘要:前言 本文接上一篇文章 R语言基于S3的面向对象编程,本文继续介绍R语言基于S4的面向对象编程。 S4对象系统具有明显的结构化特征,更适合面向对象的程序设计。Bioconductor社区,以S4对象系统做为基础架构,只接受符合S4定义的R包。 目录 1 S4对象介绍 S4对象系统是一种标准的R语言面 阅读全文
posted @ 2017-03-01 17:16 holy_black_cat 阅读(4002) 评论(0) 推荐(0) 编辑
摘要:低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。让我们尝试提升往数据框中添加一个新变量过程(该过程中包含循环和判断语句)的运算效 阅读全文
posted @ 2017-03-01 17:15 holy_black_cat 阅读(341) 评论(0) 推荐(0) 编辑
摘要:spark1.4.0的sparkR的思路:用spark从大数据集中抽取小数据(sparkR的DataFrame),然后到R里分析(DataFrame)。这两个DataFrame是不同的,前者是分布式的,集群上的DF,R里的那些包都不能用;后者是单机版的DF,包里的函数都能用。sparkR的开发计划, 阅读全文
posted @ 2017-03-01 17:14 holy_black_cat 阅读(387) 评论(0) 推荐(0) 编辑
摘要:1.table函数返回众数,再转为dataframe 2.使用which 返回数组下标 which(rs.list=="rs1008507") 3.循环数值存储 (1) M<-matrix(NA,6,6)for(i in 0:6){ if(i<=2) {for(j in (2-i):(6-i)) M 阅读全文
posted @ 2017-03-01 17:14 holy_black_cat 阅读(338) 评论(0) 推荐(0) 编辑
摘要:频数表在统计学中是一个非常基本并且重要的概念,我们这里就来讲解它的基本用法。 首先我们需要载入数据,并查看数据的基本信息 [python] view plain copy install.packages('vcd') #安装vcd包,其中有可以利用的数据Arthritis library(vcd) 阅读全文
posted @ 2017-03-01 17:13 holy_black_cat 阅读(4203) 评论(0) 推荐(0) 编辑
摘要:1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中。 [ruby] view plain copy > a <- 1:10 > save(a,file='d://data//dumData.Rdata') > rm(a) #将对象a从R中删除 阅读全文
posted @ 2017-03-01 17:12 holy_black_cat 阅读(27247) 评论(0) 推荐(1) 编辑
摘要:创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内、外部的单机、分布式数据转换为DataFrame。以下Python示例代码充分体现了Spark SQL 1.3.0中DataFrame数据源的丰富多样和简单易用: 阅读全文
posted @ 2017-03-01 17:11 holy_black_cat 阅读(1933) 评论(0) 推荐(0) 编辑
摘要:直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和爬一些R的资料,看着看着就入迷了,这就是个大宝库了,以前怎么没发现,看来还是太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,对比了目前自己的工作和以后的方向,非常适合我。所以毫不犹豫的 阅读全文
posted @ 2017-03-01 17:09 holy_black_cat 阅读(2197) 评论(0) 推荐(0) 编辑
摘要:什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎 阅读全文
posted @ 2017-03-01 17:07 holy_black_cat 阅读(3516) 评论(0) 推荐(0) 编辑
摘要:Standalone模式:Standalone模式运行的Spark集群对不同的应用程序采用先进先出(FIFO)的顺序进行调度。默认情况下每个应用程序会独占所有可用节点的资源。 现在版本的SparkR只能运行在standalone模式下 问题1:安装问题 由于R涉及到Fortran语言,要下载gcc- 阅读全文
posted @ 2017-03-01 17:06 holy_black_cat 阅读(602) 评论(0) 推荐(0) 编辑
摘要:1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中?从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于Schem 阅读全文
posted @ 2017-03-01 17:05 holy_black_cat 阅读(9891) 评论(0) 推荐(0) 编辑
摘要:由于装的sparkr是1.4版本的,老版本的很多函数已经不再适用了。 在2台服务器的组成的集群中测试了一版数据,熟悉下这个api的基本操作。​ libpath <- .libPaths() libpath <- c(libpath, "/home/r/spark/spark-1.4.0-bin-ha 阅读全文
posted @ 2017-03-01 17:02 holy_black_cat 阅读(347) 评论(0) 推荐(0) 编辑
摘要:引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数 阅读全文
posted @ 2017-03-01 17:00 holy_black_cat 阅读(632) 评论(0) 推荐(0) 编辑
摘要:apply函数(对一个数组按行或者按列进行计算): 使用格式为: apply(X, MARGIN, FUN, ...) 其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma <- matri 阅读全文
posted @ 2017-03-01 16:59 holy_black_cat 阅读(2278) 评论(0) 推荐(0) 编辑
摘要:在实际应用中,经常需要实现在一个查询语句中显示多张表的数据,这就是所谓的多表数据记录连接查询,简称来年将诶查询。 在具体实现连接查询操作时,首先将两个或两个以上的表按照某个条件连接起来,然后再查询到所要求的数据记录。连接查询分为内连接查询和外连接查询。 在具体应用中,如果需要实现多表数据记录查询,一 阅读全文
posted @ 2017-03-01 16:58 holy_black_cat 阅读(648) 评论(0) 推荐(0) 编辑
摘要:9.3. 用户变量 可以先在用户变量中保存值然后在以后引用它;这样可以将值从一个语句传递到另一个语句。用户变量与连接有关。也就是说,一个客户端定义的变量不能被其它客户端看到或使用。当客户端退出时,该客户端连接的所有变量将自动释放。 用户变量的形式为@var_name,其中变量名var_name可以由 阅读全文
posted @ 2017-03-01 16:54 holy_black_cat 阅读(22743) 评论(0) 推荐(3) 编辑
摘要:作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
posted @ 2017-03-01 16:51 holy_black_cat 阅读(323) 评论(0) 推荐(0) 编辑
摘要:先言:R语言常用界面操作 帮助:help(nnet) = ?nnet =??nnet 清除命令框中所有显示内容:Ctrl+L 清除R空间中内存变量:rm(list=ls())、gc() 获取或者设置当前工作目录:getwd、setwd 保存指定文件或者从磁盘中读取出来:save、load 读入、读出 阅读全文
posted @ 2017-03-01 16:50 holy_black_cat 阅读(7280) 评论(0) 推荐(0) 编辑
摘要:R语言实际上是函数的集合,用户可以使用base,stats等包中的基本函数,也可以自己编写函数完成一定的功能。但是初学者往往认为编写R函数十分困难,或者难以理解。这里对如何编写R函数进行简要的介绍。 函数是对一些程序语句的封装。换句话说,编写函数,可以减少人们对重复代码书写,从而让R脚本程序更为简洁 阅读全文
posted @ 2017-03-01 16:44 holy_black_cat 阅读(633) 评论(0) 推荐(0) 编辑
摘要:class(df)[1] "DataFrame"attr(,"package")[1] "SparkR"的对象之后,使用class以及names以及show可以查看 但使用showDF以及head则报出如上错误。即无法读取 关注重点报错句,可知,其他节点上没有 或改成单节点: 即启动时,去掉--ma 阅读全文
posted @ 2017-03-01 15:10 holy_black_cat 阅读(1015) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示