Fork me on GitHub

随笔分类 -  spark

摘要:一、什么是数据本地性(data locality) 大数据中有一个很有名的概念就是“移动数据不如移动计算”,之所以有数据本地性就是因为数据在网络中传输会有不小的I/O消耗,如果能够想办法尽量减少这个I/O消耗就能够提升效率。那么如何减少I/O消耗呢,当然是尽量不让数据在网络上传输,即使无法避免数据在网络上传输,也要尽量缩短传输距离,这个数据需要传输多远的距离(实际意味着数据传输的代价)就是数据... 阅读全文
posted @ 2019-01-22 02:02 CC11001100 阅读(5209) 评论(1) 推荐(2) 编辑
摘要:DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理,处理分为三种类型: drop:根据条件丢弃含有null或NaN的行 fill:根据条件使用指定值填充值为null或NaN的列,相当于设置默认值 replace:根据条件替换列值 下面是针对每种处理方式的详细解释:package cc11001100.spark.dataset.DataFram... 阅读全文
posted @ 2018-11-13 21:23 CC11001100 阅读(2260) 评论(0) 推荐(0) 编辑
摘要:一、累加器简介 在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量。 使用累加器时需要注意只有Driver能够取到累加器的值,Task端进行的是累加操作。 创建的Accumulator变量的值能够在Spark Web UI上... 阅读全文
posted @ 2018-11-03 18:16 CC11001100 阅读(10478) 评论(0) 推荐(0) 编辑
摘要:一、UDAF简介 先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。 关于UDAF的一个误区 我们可能下意识的认为UDAF是需要和group by一起使用的,实际上UDAF可以... 阅读全文
posted @ 2018-08-14 00:04 CC11001100 阅读(15392) 评论(1) 推荐(4) 编辑
摘要:一、UDF介绍 UDF(User Define Function),即用户自定义函数,Spark的官方文档中没有对UDF做过多介绍,猜想可能是认为比较简单吧。 几乎所有sql数据库的实现都为用户提供了扩展接口来增强sql语句的处理能力,这些扩展称之为UDXXX,即用户定义(User Define)的XXX,这个XXX可以是对单行操作的UDF,或者是对多行操作的UDAF,或者是UDTF,本次主要... 阅读全文
posted @ 2018-08-12 18:37 CC11001100 阅读(13109) 评论(0) 推荐(1) 编辑
摘要:一、什么是Catalog Spark SQL提供了执行sql语句的支持,sql语句是以表的方式组织使用数据的,而表本身是如何组织存储的呢,肯定是存在一些元数据之类的东西了,Catalog就是Spark 2.0之后提供的访问元数据的类: Catalog提供一些API用来对数据库、表、视图、缓存、列、函数(UDF/UDAF)进行操作,下文将一一介绍。 二、如何使用Catalog 得到Cat... 阅读全文
posted @ 2018-08-12 17:03 CC11001100 阅读(5144) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示