摘要:
一、Scala 概述 Scala是一门多范式(multi-paradigm)的编程语言,Scala支持面向对象和函数式编程 Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接. scala单作为一门语言 阅读全文
摘要:
一、写在前面 一直有一个想法:先把 spark 系统的学习一下,不要在三天打鱼两天晒网了,也是本着对自己负责,对未来负责的态度,就先总结一下学习Scala的所有小知识吧,希望自己能够坚持下来。加油。 二、REPL 环境配置 Scala安装文件下载地址 https://www.scala-lang.o 阅读全文
摘要:
分区概述 分区是大数据处理中一个非常重要的一环。分区是将数据进行重新分布,传输到不同的通道进行下一步数据处理。之前在进行 wordcount 的时候已经使用过有关分区的算子 keyby,keiby 是按照键的哈希值进行的重分区操作。 KeyedStream<Tuple2<String, Long>, 阅读全文
摘要:
Transformation 数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个DataStream转换为新的DataStream,如上图所示。一个Flink程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。我们可以针对一条流进行转换处理,也可以进行分流、合流等多流转换操作,从 阅读全文
摘要:
Flink Source 简介 Flink 获取执行环境之后,就可以运行FLink 处理数据了,但是在对数据进行处理之前需要将数据读进来,有数据,才能处理数据。Flink 可以通过各种途径获取数据,然后通过API构建 DataStream 对数据进行一列列处理。今天我们总结一下 Flink 读取数据 阅读全文
摘要:
flink 上下文一些细节 Flink 程序可以在 本地环境运行,也可以在集群环境下运行,不同的运算环境,提交的运行过程也不太一样,这就需要运行程序的时候需要获取上下文环境,从而建立起与flink框架的联系,只有获取到上下文环境信息才能将任务分配到不同的taskmanager上运行。 StreamE 阅读全文
摘要:
Lambda expressions are not supported at language level '5' 解决方案 1. 打开 File --> Project Stucture 选择项目设置Lanugage level, 如图所示 这里设置改下 2. 打开 File --> Setti 阅读全文
摘要:
接下来我们看下常见RDD的转换算子和行动算子。 1、基本RDD的操作 首先来讲讲那些转化操作和行动操作受任意数据类型的RDD支持。 1.1、针对每个元素的转换操作 你很可能会用到的两个最常用的转化操作是map()和filter()。转化操作map()接收一个函数,把这个函数用于RDD中的每个元素,将 阅读全文
摘要:
Spark 中的 RDD 其实是一个分布式对象集合,每个 RDD 都被分为多个分区,这些分区运行在集群的不同的节点上。RDD 支持转换操作和行动操作。转化操作会由一个 RDD 生成一个新的 RDD ,例如 scala> val lines = sc.textFile("README.md") 这里通 阅读全文
摘要:
spark 为了达到高并发,高吞吐数据处理能力封装了三大数据对象; RDD 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 1、RDD 概述 1.1、RDD 引入之IO流 首先回顾下java 中IO的设计模式 IO流和RDD之间的关系 1.2、什么是RDD RDD(Res 阅读全文