2017 年 12月 26 日随笔档案 - jinggangshan

2017年12月26日

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

摘要： Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)（离散化流） Input DStreams 和 Receivers（接收器） DStreams 上的 Transform 阅读全文

posted @ 2017-12-26 14:31 jinggangshan 阅读(1445) 评论(0) 推荐(1) 编辑

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

摘要： Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Ru 阅读全文

posted @ 2017-12-26 14:22 jinggangshan 阅读(1117) 评论(0) 推荐(0) 编辑

spark函数sortByKey实现二次排序

摘要：最近在项目中遇到二次排序的需求，和平常开发spark的application一样，开始查看API，编码，调试，验证结果。由于之前对spark的API使用过，知道API中的sortByKey()可以自定义排序规则，通过实现自定义的排序规则来实现二次排序。这里为了说明问题，举了一个简单的例子,key是阅读全文

posted @ 2017-12-26 14:08 jinggangshan 阅读(2963) 评论(0) 推荐(0) 编辑

spark 变量使用 broadcast、accumulator

摘要： broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distrib 阅读全文

posted @ 2017-12-26 11:28 jinggangshan 阅读(3220) 评论(0) 推荐(0) 编辑

Spark RDD API（scala）

摘要： 1、RDD RDD（Resilient Distributed Dataset弹性分布式数据集）是Spark中抽象的数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据时分区存储的，这样不同分区的数据就可以分布在不同阅读全文

posted @ 2017-12-26 11:00 jinggangshan 阅读(2903) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）

摘要： Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: Resilient Distributed Datasets（RDDs） 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的阅读全文

posted @ 2017-12-26 10:44 jinggangshan 阅读(715) 评论(0) 推荐(0) 编辑

wenwen2016

公告