摘要: 原文引自:http://blog.csdn.net/fengzhimohan/article/details/78564610 a. 案例描述 本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计,需要计算出男女人数,男性中的最高和最低身高,以及女性中的最高和最低身高。本案例中用到的源 阅读全文
posted @ 2017-12-25 14:43 jinggangshan 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 原文引自:http://blog.csdn.net/fengzhimohan/article/details/78535143 该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当然如果您想测试 Spark 对于大数据的处理能力,您可以把人口数放的更大,比如 1 亿人口,当然这个 阅读全文
posted @ 2017-12-25 14:10 jinggangshan 阅读(2494) 评论(0) 推荐(0) 编辑
摘要: 在github上有spark-java8 实例地址: https://github.com/ypriverol/spark-java8 https://github.com/ihr/java8-spark 学些java8 Lambda Expressions 的可以参考下,同时自己也做下比较。 ja 阅读全文
posted @ 2017-12-25 13:52 jinggangshan 阅读(1641) 评论(0) 推荐(0) 编辑
摘要: 原文引自:https://www.cnblogs.com/yxpblog/p/5269314.html 在开始之前,我先介绍一下,RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD 阅读全文
posted @ 2017-12-25 09:47 jinggangshan 阅读(3227) 评论(0) 推荐(0) 编辑
摘要: 原文引自:http://blog.csdn.net/zongzhiyuan/article/details/78076842 hive数据表建立可以在hive上建立,或者使用hiveContext.sql(“create table ....") 1) 写入hive表 [java] view pla 阅读全文
posted @ 2017-12-22 16:40 jinggangshan 阅读(4791) 评论(0) 推荐(0) 编辑
摘要: 说明:掌握spark的一个关键,就是要深刻理解掌握RDD各个函数的使用场景,这样我们在写业务逻辑的时候就知道在什么时候用什么样的函数去实现,得心应手,本文将逐步收集整理各种函数原理及示例代码,持续更新,方便大家学习掌握。 函数列表: 1、join的使用2、cogroup的使用3、GroupByKey 阅读全文
posted @ 2017-12-22 16:13 jinggangshan 阅读(25288) 评论(0) 推荐(6) 编辑
摘要: 原文引自:http://blog.csdn.net/u011497897/article/details/71440323 一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce 阅读全文
posted @ 2017-12-22 16:04 jinggangshan 阅读(12115) 评论(1) 推荐(1) 编辑
摘要: 原文引自:http://blog.csdn.net/xiefu5hh/article/details/51781074 SPARK的核心就是RDD,对SPARK的使用入门也就是对RDD的使用, 对于JAVA的开发者,Spark的RDD对JAVA的API我表示很不能上手,单单看文档根本是没有办法理解每 阅读全文
posted @ 2017-12-22 15:25 jinggangshan 阅读(3833) 评论(0) 推荐(0) 编辑
摘要: 原文引自:http://blog.sina.com.cn/s/blog_628cc2b70102w9up.html 一、初始化SparkContext System.setProperty("hadoop.home.dir", "D:\\spark-1.6.1-bin-hadoop2.6\\spar 阅读全文
posted @ 2017-12-22 15:02 jinggangshan 阅读(8942) 评论(0) 推荐(0) 编辑
摘要: 原文引自:https://www.cnblogs.com/codedevelop/p/6762555.html 概述 文件下载 系统环境搭建 日志查看 Q&A 参考 概述 CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多 阅读全文
posted @ 2017-12-22 11:14 jinggangshan 阅读(291) 评论(0) 推荐(1) 编辑