摘要: sparkR默认是以单机方式运行的。实现sparkR的集群启动,需要指定master地址,占用内存、CPU,及UI端口等,这对分析人员来说是比较麻烦的。 如何实现对其启动的封装,方便分析人员来使用: vi bdcmagicR #!/bin/bash function rand(){ min=$1 m 阅读全文
posted @ 2017-03-24 16:58 holy_black_cat 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了。里面涉及了一些报错的处理。 这里主要参考了stackoverflow上的以下问答: tryCatch部分,后续查找资料,发现以下博文: 1. R语言使用tryCatch进行简单的错误 阅读全文
posted @ 2017-03-24 15:22 holy_black_cat 阅读(5163) 评论(0) 推荐(0) 编辑
摘要: get_range <- function(data_name , row_name){ library(stringr) load(data_name) data_str <- str_replace(a,".Rdata" ,"") data <- eval(parse(text = data_s 阅读全文
posted @ 2017-03-24 14:47 holy_black_cat 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 在R语言中,通常有一些操作符可以来提取对象的子集,如以下三种:1、“[” 单层方括号,返回的对象与原对象类型相同,它也可以返回一个对象中的多个元素;2、“[[” 双层方括号,用来从列表(list)或数据框(data frame)中提取元素;也可从列表或数据框中提取单个元素,且返回对象的类型可以不为列 阅读全文
posted @ 2017-03-24 14:32 holy_black_cat 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包,其中包括用ggplot2包来绘图,用glmnet包做回归,用tm包进行文本挖掘,用plyr、reshape、lubridate和st 阅读全文
posted @ 2017-03-24 14:03 holy_black_cat 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 环境设置函数为options(),用options()命令可以设置一些环境变量,使用help(options)可以查看详细的参数信息。 1. 数字位数的设置,options(digits=n),n一般默认情况下是7位,但实际上的范围是1~22,可以随意设置位数。 2. 扩展包的安装,使用下面的命令, 阅读全文
posted @ 2017-03-24 11:20 holy_black_cat 阅读(20257) 评论(0) 推荐(1) 编辑