spark - 随笔分类 - 又又IT

SparkStreaming

摘要：1.workcount 2.将数据写到redis 开启redis bin/redis-server etc/redis.conf 查看端口 ps -ef|grep redis 3.完整版SparkStreaming 阅读全文

posted @ 2019-07-01 12:11 又又IT 阅读(205) 评论(0) 推荐(0) 编辑

摘要：1.spark内核架构常用术语 Application:基于spark程序，包含一个driver program(客户端程序)和多个executeor（线程） Driver Progrom:代表着sparkcontext executeor:某个Application运行在worker node上的阅读全文

posted @ 2019-06-27 15:29 又又IT 阅读(1873) 评论(0) 推荐(0) 编辑

sparkSQL

摘要：1.spark SQL简介官网：http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程对象，叫DataFrame，并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive，它是将H 阅读全文

posted @ 2019-06-26 12:32 又又IT 阅读(310) 评论(0) 推荐(0) 编辑

Spark分区实例（teacher）

摘要：teacher.log 阅读全文

posted @ 2019-06-25 18:05 又又IT 阅读(229) 评论(0) 推荐(0) 编辑

SparkCore的性能优化

摘要：1.广播变量 1.1. Spark提供的Broadcast Variable,是只读的，并且在每个节点上只会有一份副本，而不会为每个task都拷贝一份副本 1.2.它的最大作用，就是减少变量到各个节点的网络传输消耗，以及各个节点上的内存消耗 1.3.spark自己内部也是用了高效的广播栓发来减少网络阅读全文

posted @ 2019-06-25 17:50 又又IT 阅读(277) 评论(0) 推荐(0) 编辑

弹性分布式数据集（RDD）

摘要：spark围绕弹性分布式数据集（RDD）的概念展开的，RDD是一个可以并行操作的容错集合。创建RDD的方法： 1.并行化集合（并行化驱动程序中现有的集合）调用SparkContext的parallelize收集方法 2.外部数据集操作（引用外部系统存储的数据集） RDD操作 1.Transfor 阅读全文

posted @ 2019-06-25 16:30 又又IT 阅读(411) 评论(0) 推荐(0) 编辑

spark的体系结构

摘要：spark的体系结构 1.客户端（Driver Program）需要构建一个对象，核心是sc(SparkContext) 以应用程序为例：链接本地启动方式： 1.Spark-Shell 2.Spark-Submit 3.应用程序 2.服务端 1.客户端将job提交给Master(主节点) 2.主阅读全文

posted @ 2019-06-25 16:22 又又IT 阅读(831) 评论(0) 推荐(0) 编辑

spark 省份次数统计实例

摘要：//统计access.log文件里面IP地址对应的省份，并把结果存入到mysqlpackage access1 import java.sql.DriverManager import org.apache.spark.broadcast.Broadcast import org.apache.spark.{SparkConf, SparkContext} object AccessIp ... 阅读全文

posted @ 2019-06-25 12:13 又又IT 阅读(760) 评论(0) 推荐(0) 编辑

spark热门电影

摘要：package moviesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Movice { def main(args: Array[String]): Unit = { val cof = new SparkConf () .setAppName ... 阅读全文

posted @ 2019-06-24 17:35 又又IT 阅读(346) 评论(0) 推荐(0) 编辑

spark map和mapPartitions的区别

摘要：package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val cof = new Sp... 阅读全文

posted @ 2019-06-20 15:24 又又IT 阅读(1016) 评论(0) 推荐(0) 编辑

RDD实例

摘要：实例一： teacher.log 全局topn 组内topn 代码：实例二：去重代码：实例三： temperature.txt 需求：分析每年的最高温度代码：阅读全文

posted @ 2019-06-20 14:53 又又IT 阅读(401) 评论(0) 推荐(1) 编辑

又又IT

随笔分类 - spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜