该文被密码保护。 阅读全文
posted @ 2019-05-08 22:46 左手编程右手诗 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1.map算子 2.filter算子 3.flatMap算子 Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象 阅读全文
posted @ 2019-05-08 22:34 左手编程右手诗 阅读(3454) 评论(0) 推荐(0) 编辑
摘要: 2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。 这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为 (1)exactly-once在kafka中的定义。(2)数据生产者“幂等操作”,kafka的事务性以及exactl 阅读全文
posted @ 2019-05-08 22:06 左手编程右手诗 阅读(4954) 评论(0) 推荐(0) 编辑
摘要: Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全 阅读全文
posted @ 2019-05-08 21:20 左手编程右手诗 阅读(3799) 评论(0) 推荐(1) 编辑
摘要: RDD及其特点 1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行 阅读全文
posted @ 2019-05-08 20:59 左手编程右手诗 阅读(1233) 评论(0) 推荐(0) 编辑