摘要:
map,filter,flatMap算子 视频教程: 1、优酷 2、YouTube 1、map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD。 java: python: 2、filter 返回一个新的数据集,由经过func函数 阅读全文
摘要:
Transformation和action详解 视频教程: 1、优酷 2、YouTube 什么是算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 算子分类: 具体: 1、Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型 阅读全文
摘要:
Spark-Eclipse开发环境WordCount 视频教程: 1、优酷 2、YouTube 安装eclipse 解压eclipse-jee-mars-2-win32-x86_64.zip JavaWordcount 解压spark-2.0.0-bin-hadoop2.6.tgz 创建 Java 阅读全文
摘要:
什么是RDD 视频教程: 1、优酷 2、YouTube RDD是个抽象类,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据,诸如map、fl 阅读全文
摘要:
Spark集群搭建 视频教程 1、优酷 2、YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到master和slave机器的hadoop用户installer目录下 两台机器都要做 [hadoop 阅读全文
摘要:
Spark-Hadoop集群搭建 视频教程: 1、优酷 2、YouTube 配置java 启动ftp [root@master ~]# /etc/init.d/vsftpd restart 关闭 vsftpd: [失败] 为 vsftpd 启动 vsftpd: [确定] 默认情况下 root不允许使 阅读全文
摘要:
Spark-Linux环境准备 视频教程: 1、优酷 2、YouTube 硬软件环境 1、虚拟机:VMware Workstation 12 2、虚拟机操作系统:RedHat5u4,单核,1G内存,2两台 3、虚拟机运行环境: java version "1.7.0_79" 64位 Scala ve 阅读全文
摘要:
Spark简介 视频教程: 1、优酷 2、YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出 阅读全文