随笔分类 - spark

Spark笔记之数据本地性（data locality）

摘要：一、什么是数据本地性（data locality）大数据中有一个很有名的概念就是“移动数据不如移动计算”，之所以有数据本地性就是因为数据在网络中传输会有不小的I/O消耗，如果能够想办法尽量减少这个I/O消耗就能够提升效率。那么如何减少I/O消耗呢，当然是尽量不让数据在网络上传输，即使无法避免数据在网络上传输，也要尽量缩短传输距离，这个数据需要传输多远的距离（实际意味着数据传输的代价）就是数据... 阅读全文

posted @ 2019-01-22 02:02 CC11001100 阅读(5228) 评论(1) 推荐(2) 编辑

Spark笔记之DataFrameNaFunctions

摘要：DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理，处理分为三种类型： drop：根据条件丢弃含有null或NaN的行 fill：根据条件使用指定值填充值为null或NaN的列，相当于设置默认值 replace：根据条件替换列值下面是针对每种处理方式的详细解释：package cc11001100.spark.dataset.DataFram... 阅读全文

posted @ 2018-11-13 21:23 CC11001100 阅读(2261) 评论(0) 推荐(0) 编辑

Spark笔记之累加器（Accumulator）

摘要：一、累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量，使用filter/reduce也可以，但是使用累加器是一种更方便的方式，累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量。使用累加器时需要注意只有Driver能够取到累加器的值，Task端进行的是累加操作。创建的Accumulator变量的值能够在Spark Web UI上... 阅读全文

posted @ 2018-11-03 18:16 CC11001100 阅读(10501) 评论(0) 推荐(0) 编辑

Spark笔记之使用UDAF（User Defined Aggregate Function）

摘要：一、UDAF简介先解释一下什么是UDAF（User Defined Aggregate Function），即用户定义的聚合函数，聚合函数和普通函数的区别是什么呢，普通函数是接受一行输入产生一个输出，聚合函数是接受一组（一般是多行）输入然后产生一个输出，即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的，实际上UDAF可以... 阅读全文

posted @ 2018-08-14 00:04 CC11001100 阅读(15402) 评论(1) 推荐(4) 编辑

Spark笔记之使用UDF（User Define Function）

摘要：一、UDF介绍 UDF（User Define Function），即用户自定义函数，Spark的官方文档中没有对UDF做过多介绍，猜想可能是认为比较简单吧。几乎所有sql数据库的实现都为用户提供了扩展接口来增强sql语句的处理能力，这些扩展称之为UDXXX，即用户定义（User Define）的XXX，这个XXX可以是对单行操作的UDF，或者是对多行操作的UDAF，或者是UDTF，本次主要... 阅读全文

posted @ 2018-08-12 18:37 CC11001100 阅读(13135) 评论(0) 推荐(1) 编辑

Spark笔记之Catalog

摘要：一、什么是Catalog Spark SQL提供了执行sql语句的支持，sql语句是以表的方式组织使用数据的，而表本身是如何组织存储的呢，肯定是存在一些元数据之类的东西了，Catalog就是Spark 2.0之后提供的访问元数据的类： Catalog提供一些API用来对数据库、表、视图、缓存、列、函数（UDF/UDAF）进行操作，下文将一一介绍。二、如何使用Catalog 得到Cat... 阅读全文

posted @ 2018-08-12 17:03 CC11001100 阅读(5171) 评论(0) 推荐(0) 编辑

公告

本博客文章大多为个人学习笔记，如有错误还望大力指出！

昵称： CC11001100
园龄： 9年8个月
粉丝： 118
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 - spark

公告

随笔分类 (379)

阅读排行榜

评论排行榜

推荐排行榜

最新评论