随笔分类 -  spark

摘要:一、transformation开发实战 1、map: 将集合中每个元素乘以2 使用map算子,将集合中的每个元素都乘以2 map算子,是对任何类型的RDD,都可以调用的,在Java中,map算子接收的参数是Function对象 创建的Function对象,一定会让你设置第二个泛型参数,这个泛型类型 阅读全文
posted @ 2019-07-08 11:09 米兰的小铁將 阅读(367) 评论(0) 推荐(0) 编辑
摘要:一、transformation和action入门 1、介绍 Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、 保存到文件等,并可以返 阅读全文
posted @ 2019-06-28 11:21 米兰的小铁將 阅读(267) 评论(0) 推荐(0) 编辑
摘要:一、创建RDD 1、创建RDD 进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的R 阅读全文
posted @ 2019-06-27 15:40 米兰的小铁將 阅读(1590) 评论(0) 推荐(0) 编辑
摘要:一、wordcount程序原理深度剖析二、Spark架构原理1、 阅读全文
posted @ 2019-06-27 10:46 米兰的小铁將 阅读(476) 评论(0) 推荐(0) 编辑
摘要:一、用Java开发wordcount程序 1、开发环境JDK1.6 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行(spark-submit常用参数说明,spark-submit其实就类似于hadoop的hadoop jar 阅读全文
posted @ 2019-06-26 15:21 米兰的小铁將 阅读(324) 评论(0) 推荐(0) 编辑
摘要:一、基本工作原理 1、特点 二、RDD 1、 三、spark编程 1、 阅读全文
posted @ 2019-06-24 16:34 米兰的小铁將 阅读(787) 评论(0) 推荐(0) 编辑
摘要:一、Linux基础环境准备系统:centos6.5 三台1、系统安装2、关闭防火墙、selinux3、修改主机名并修改hosts文件4、配置ssh互信5、安装JDK1.7二、hadoop安装1、解压安装版本: hadoop2.4.1[root@s1 src]# pwd/usr/local/src[root@s1 src]# lsapache-hive-0.13.1-bin.tar.gz ... 阅读全文
posted @ 2019-06-21 17:21 米兰的小铁將 阅读(261) 评论(0) 推荐(0) 编辑