2018 年 7月 15 日随笔档案 - Frankdeng

2018年7月15日

摘要： Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API，因此有两个独立的相应Spark Streaming包可用。请选择正确的包，请注意，0.8集成与后来的0.9和0.10代理兼容，但0.10集成与早期的代理不兼容。注意：从Sp 阅读全文

posted @ 2018-07-15 23:49 Frankdeng 阅读(14928) 评论(3) 推荐(2) 编辑

Spark（十七）图计算GraphX

摘要：一、图概念术语 1.1 基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相阅读全文

posted @ 2018-07-15 22:22 Frankdeng 阅读(9606) 评论(3) 推荐(1) 编辑

Spark（十六）DataSet

摘要： Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。本文主要讲解Apache Spark 2.0中RDD，DataFrame和Dataset三种API；它们各自适合的使用场景；它们的性能和优化；列举使用DataFrame和DataSet代替阅读全文

posted @ 2018-07-15 22:03 Frankdeng 阅读(4514) 评论(0) 推荐(0) 编辑

Spark（十五）SparkCore的源码解读

摘要：一、启动脚本分析独立部署模式下，主要由master和slaves组成，master可以利用zk实现高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。启动master和slaves主要是执行/u 阅读全文

posted @ 2018-07-15 21:47 Frankdeng 阅读(2127) 评论(0) 推荐(1) 编辑

Spark（十四）SparkStreaming的官方文档

摘要：一、SparkCore、SparkSQL和SparkStreaming的类似之处二、SparkStreaming的运行流程 2.1　图解说明 2.2　文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar，然后就会产生一个Application，开启一个Driver，然阅读全文

posted @ 2018-07-15 20:15 Frankdeng 阅读(1244) 评论(0) 推荐(0) 编辑

Spark（十三）SparkSQL的自定义函数UDF与开窗函数

摘要：一自定义函数UDF 在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcation），用户阅读全文

posted @ 2018-07-15 18:55 Frankdeng 阅读(2808) 评论(0) 推荐(0) 编辑

Spark（十二）SparkSQL简单使用

摘要：一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始：SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x： SparkSQL+DataFrame+DataSet(测试版本) 阅读全文

posted @ 2018-07-15 16:46 Frankdeng 阅读(20712) 评论(0) 推荐(0) 编辑

Spark（十一）Spark分区

摘要：一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区数据分区，阅读全文

posted @ 2018-07-15 15:05 Frankdeng 阅读(2851) 评论(1) 推荐(0) 编辑

Frankdeng

公告