随笔分类 - Spark
摘要:概述 SparkStreaming 是用于流式数据的处理。数据输入后可以用高级抽象原语(就是 SparkCore 中的算子,这里只是为了区分),如 map、reduce、window 等进行计算。 SparkStreaming 使用离散化流(discretized stream)作为抽象表示(DSt
阅读全文
摘要:DataFrame DataFrame 是一种以 RDD 为基础的分布式数据集,类似于二维表格。与 RDD 的区别在于,前者带有 schema 元信息,即 DataFrame。 DataFrame 也是懒执行的,但性能上比 RDD 要高。因为优化了执行计划,查询计划通过 Spark catalyst
阅读全文
摘要:数据说明 用户有四种行为:搜索、点击、下单、支付。 每行数据用下划线分割不同含义的数据。 每行数据表示用户的一种行为。 如果搜索关键字为 null,这行数据就不是搜索数据。 如果点击的品类 ID 和产品 ID 为-1,这行数据就不是点击数据。 一次可以下单多个商品,所以品类 ID 和产品 ID 可以
阅读全文
摘要:累加器 累加器(分布式共享只写变量):用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在 Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 Task 更新这些副本的值之后,会传回 Driver 端进行 merge。 对 li
阅读全文
摘要:概念与特性 RDD (Resilient Distributed Dataset)弹性分布式数据集,是 Spark 中最基本的数据处理模型。 弹性 存储:内存和磁盘的自动切换 容错:数据丢失可以自动恢复 计算:计算出错重试机制 分片:可根据需要重新分片 分布式:数据存储在大数据集群的不同节点上 数据
阅读全文
摘要:IO 原理 IO 流主要分为字节流和字符流。 字节流可以处理任何类型的数据,如图片,视频等。 字符流只能处理字符类型的数据。 字节文件操作流 InputStream inputStream = new FileInputStream("path"); int i = 0; // 一次读取一个字节 w
阅读全文