摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4一、kafka是什么? (1)kafka是一个高吞吐的分部式消息系统.(2)消息列队常见应用场景:系统之间解耦合;峰值压力缓冲;异步通信; 二、kafka特点:1、生产者消 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、output operation算子1、foreachRDD:必须对抽取出来的RDD执 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SparkStreaming简介SparkStreaming是流式处理框架,是Spar 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、UDF:用户自定义函数。可以自定义类实现UDFX接口 示例代码:Java: Scala 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 1、读取json格式的文件创建DataFrame注意:(1)json文件中的json数据不 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、PV & UV PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主 阅读全文
摘要:
【Spark-core学习之八】 SparkShuffle & Spark内存管理环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Sp 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、广播变量 注意: (1) 能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是 阅读全文
摘要:
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、Spark资源调度和任务调度 1、Spark资源调度和任务调度的流程 启动集群后,Wo 阅读全文