摘要: Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transform 阅读全文
posted @ 2017-12-26 14:31 jinggangshan 阅读(1431) 评论(0) 推荐(1) 编辑
摘要: Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Ru 阅读全文
posted @ 2017-12-26 14:22 jinggangshan 阅读(1109) 评论(0) 推荐(0) 编辑
摘要: 最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的API使用过,知道API中的sortByKey()可以自定义排序规则,通过实现自定义的排序规则来实现二次排序。 这里为了说明问题,举了一个简单的例子,key是 阅读全文
posted @ 2017-12-26 14:08 jinggangshan 阅读(2937) 评论(0) 推荐(0) 编辑
摘要: broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distrib 阅读全文
posted @ 2017-12-26 11:28 jinggangshan 阅读(3183) 评论(0) 推荐(0) 编辑
摘要: 1、RDD RDD(Resilient Distributed Dataset弹性分布式数据集)是Spark中抽象的数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据时分区存储的,这样不同分区的数据就可以分布在不同 阅读全文
posted @ 2017-12-26 11:00 jinggangshan 阅读(2864) 评论(0) 推荐(0) 编辑
摘要: Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的 阅读全文
posted @ 2017-12-26 10:44 jinggangshan 阅读(703) 评论(0) 推荐(0) 编辑