随笔分类 -  【56】Spark

摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 从kafka消费消息的偏移量存储到ZK 或者 mysql 或者 hbase,进行主动管理。 阅读全文
posted @ 2019-04-26 09:26 cac2020 阅读(1341) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、receiver模式 1、receiver模式理解在SparkStreaming程序运 阅读全文
posted @ 2019-04-24 17:08 cac2020 阅读(926) 评论(1) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、output operation算子1、foreachRDD:必须对抽取出来的RDD执 阅读全文
posted @ 2019-04-22 15:37 cac2020 阅读(946) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SparkStreaming简介SparkStreaming是流式处理框架,是Spar 阅读全文
posted @ 2019-04-18 10:37 cac2020 阅读(466) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、UDF:用户自定义函数。可以自定义类实现UDFX接口 示例代码:Java: Scala 阅读全文
posted @ 2019-04-16 16:15 cac2020 阅读(858) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 1、读取json格式的文件创建DataFrame注意:(1)json文件中的json数据不 阅读全文
posted @ 2019-04-16 16:13 cac2020 阅读(1998) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由 阅读全文
posted @ 2019-04-11 15:07 cac2020 阅读(669) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、PV & UV PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主 阅读全文
posted @ 2019-04-10 17:21 cac2020 阅读(875) 评论(0) 推荐(0) 编辑
摘要:【Spark-core学习之八】 SparkShuffle & Spark内存管理环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Sp 阅读全文
posted @ 2019-04-10 10:16 cac2020 阅读(353) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、广播变量 注意: (1) 能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是 阅读全文
posted @ 2019-04-09 15:36 cac2020 阅读(295) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Spark资源调度和任务调度 1、Spark资源调度和任务调度的流程 启动集群后,Wo 阅读全文
posted @ 2019-04-07 17:33 cac2020 阅读(427) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 示例: 窄依赖:父RDD 阅读全文
posted @ 2019-04-04 17:21 cac2020 阅读(557) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 术语 Master(standalone):资源管理的主节点(进程) Cluster Ma 阅读全文
posted @ 2019-04-03 16:26 cac2020 阅读(477) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、搭建集群组建方案:master:PCS101,slave:PCS102、PCS103 阅读全文
posted @ 2019-04-02 18:10 cac2020 阅读(1176) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、RDDRDD(Resilient Distributed Dataset)叫做弹性分布 阅读全文
posted @ 2019-04-01 16:44 cac2020 阅读(801) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引 阅读全文
posted @ 2019-04-01 08:46 cac2020 阅读(424) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示