随笔分类 - 【56】Spark
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 从kafka消费消息的偏移量存储到ZK 或者 mysql 或者 hbase,进行主动管理。
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、receiver模式 1、receiver模式理解在SparkStreaming程序运
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、output operation算子1、foreachRDD:必须对抽取出来的RDD执
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SparkStreaming简介SparkStreaming是流式处理框架,是Spar
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、UDF:用户自定义函数。可以自定义类实现UDFX接口 示例代码:Java: Scala
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 1、读取json格式的文件创建DataFrame注意:(1)json文件中的json数据不
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、PV & UV PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主
阅读全文
摘要:【Spark-core学习之八】 SparkShuffle & Spark内存管理环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Sp
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、广播变量 注意: (1) 能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Spark资源调度和任务调度 1、Spark资源调度和任务调度的流程 启动集群后,Wo
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 示例: 窄依赖:父RDD
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 术语 Master(standalone):资源管理的主节点(进程) Cluster Ma
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、搭建集群组建方案:master:PCS101,slave:PCS102、PCS103
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、RDDRDD(Resilient Distributed Dataset)叫做弹性分布
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引
阅读全文