摘要: 1. 环境信息如下:ubuntu:14.10jdk:openjdk-1.7.0hadoop:2.6.02. 下载hadoop2.6.0,http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz本文的$HADOOP_H... 阅读全文
posted @ 2015-03-16 23:06 逸云丫丫 阅读(523) 评论(0) 推荐(0) 编辑
摘要: SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD... 阅读全文
posted @ 2015-03-16 17:02 逸云丫丫 阅读(2172) 评论(2) 推荐(0) 编辑