返回顶部 Fork me on GitHub
摘要: Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Sp 阅读全文
posted @ 2018-07-15 23:49 Frankdeng 阅读(14928) 评论(3) 推荐(2) 编辑
摘要: 一、图概念术语 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相 阅读全文
posted @ 2018-07-15 22:22 Frankdeng 阅读(9606) 评论(3) 推荐(1) 编辑
摘要: Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替 阅读全文
posted @ 2018-07-15 22:03 Frankdeng 阅读(4514) 评论(0) 推荐(0) 编辑
摘要: 一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/u 阅读全文
posted @ 2018-07-15 21:47 Frankdeng 阅读(2127) 评论(0) 推荐(1) 编辑
摘要: 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-07-15 20:15 Frankdeng 阅读(1244) 评论(0) 推荐(0) 编辑
摘要: 一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户 阅读全文
posted @ 2018-07-15 18:55 Frankdeng 阅读(2808) 评论(0) 推荐(0) 编辑
摘要: 一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) 阅读全文
posted @ 2018-07-15 16:46 Frankdeng 阅读(20712) 评论(0) 推荐(0) 编辑
摘要: 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2018-07-15 15:05 Frankdeng 阅读(2851) 评论(1) 推荐(0) 编辑