随笔分类 - spark
摘要:1.workcount 2.将数据写到redis 开启redis bin/redis-server etc/redis.conf 查看端口 ps -ef|grep redis 3.完整版SparkStreaming
阅读全文
摘要:1.spark内核架构常用术语 Application:基于spark程序,包含一个driver program(客户端程序)和多个executeor(线程) Driver Progrom:代表着sparkcontext executeor:某个Application运行在worker node上的
阅读全文
摘要:1.spark SQL简介 官网:http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程对象,叫DataFrame,并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive,它是将H
阅读全文
摘要:1.广播变量 1.1. Spark提供的Broadcast Variable,是只读的,并且在每个节点上只会有一份副本,而不会为每个task都拷贝一份副本 1.2.它的最大作用,就是减少变量到各个节点的网络传输消耗,以及各个节点上的内存消耗 1.3.spark自己内部也是用了高效的广播栓发来减少网络
阅读全文
摘要:spark围绕弹性分布式数据集(RDD)的概念展开的,RDD是一个可以并行操作的容错集合。 创建RDD的方法: 1.并行化集合(并行化驱动程序中现有的集合) 调用SparkContext的parallelize收集方法 2.外部数据集操作(引用外部系统存储的数据集) RDD操作 1.Transfor
阅读全文
摘要:spark的体系结构 1.客户端(Driver Program) 需要构建一个对象,核心是sc(SparkContext) 以应用程序为例:链接本地 启动方式: 1.Spark-Shell 2.Spark-Submit 3.应用程序 2.服务端 1.客户端将job提交给Master(主节点) 2.主
阅读全文
摘要://统计access.log文件里面IP地址对应的省份,并把结果存入到mysqlpackage access1 import java.sql.DriverManager import org.apache.spark.broadcast.Broadcast import org.apache.spark.{SparkConf, SparkContext} object AccessIp ...
阅读全文
摘要:package moviesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Movice { def main(args: Array[String]): Unit = { val cof = new SparkConf () .setAppName ...
阅读全文
摘要:package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val cof = new Sp...
阅读全文
摘要:实例一: teacher.log 全局topn 组内topn 代码: 实例二: 去重 代码: 实例三: temperature.txt 需求:分析每年的最高温度 代码:
阅读全文