上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 45 下一页
摘要: 一、Scala 概述 Scala是一门多范式(multi-paradigm)的编程语言,Scala支持面向对象和函数式编程 Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接. scala单作为一门语言 阅读全文
posted @ 2022-03-24 09:26 晓枫的春天 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 一、写在前面 一直有一个想法:先把 spark 系统的学习一下,不要在三天打鱼两天晒网了,也是本着对自己负责,对未来负责的态度,就先总结一下学习Scala的所有小知识吧,希望自己能够坚持下来。加油。 二、REPL 环境配置 Scala安装文件下载地址 https://www.scala-lang.o 阅读全文
posted @ 2022-03-23 12:31 晓枫的春天 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 分区概述 分区是大数据处理中一个非常重要的一环。分区是将数据进行重新分布,传输到不同的通道进行下一步数据处理。之前在进行 wordcount 的时候已经使用过有关分区的算子 keyby,keiby 是按照键的哈希值进行的重分区操作。 KeyedStream<Tuple2<String, Long>, 阅读全文
posted @ 2022-03-22 14:52 晓枫的春天 阅读(532) 评论(0) 推荐(0) 编辑
摘要: Transformation 数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个DataStream转换为新的DataStream,如上图所示。一个Flink程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。我们可以针对一条流进行转换处理,也可以进行分流、合流等多流转换操作,从 阅读全文
posted @ 2022-03-22 10:48 晓枫的春天 阅读(521) 评论(0) 推荐(0) 编辑
摘要: Flink Source 简介 Flink 获取执行环境之后,就可以运行FLink 处理数据了,但是在对数据进行处理之前需要将数据读进来,有数据,才能处理数据。Flink 可以通过各种途径获取数据,然后通过API构建 DataStream 对数据进行一列列处理。今天我们总结一下 Flink 读取数据 阅读全文
posted @ 2022-03-21 14:40 晓枫的春天 阅读(660) 评论(0) 推荐(1) 编辑
摘要: flink 上下文一些细节 Flink 程序可以在 本地环境运行,也可以在集群环境下运行,不同的运算环境,提交的运行过程也不太一样,这就需要运行程序的时候需要获取上下文环境,从而建立起与flink框架的联系,只有获取到上下文环境信息才能将任务分配到不同的taskmanager上运行。 StreamE 阅读全文
posted @ 2022-03-19 23:23 晓枫的春天 阅读(2346) 评论(0) 推荐(1) 编辑
摘要: Lambda expressions are not supported at language level '5' 解决方案 1. 打开 File --> Project Stucture 选择项目设置Lanugage level, 如图所示 这里设置改下 2. 打开 File --> Setti 阅读全文
posted @ 2022-03-19 09:58 晓枫的春天 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 接下来我们看下常见RDD的转换算子和行动算子。 1、基本RDD的操作 首先来讲讲那些转化操作和行动操作受任意数据类型的RDD支持。 1.1、针对每个元素的转换操作 你很可能会用到的两个最常用的转化操作是map()和filter()。转化操作map()接收一个函数,把这个函数用于RDD中的每个元素,将 阅读全文
posted @ 2022-03-17 21:28 晓枫的春天 阅读(227) 评论(0) 推荐(0) 编辑
摘要: Spark 中的 RDD 其实是一个分布式对象集合,每个 RDD 都被分为多个分区,这些分区运行在集群的不同的节点上。RDD 支持转换操作和行动操作。转化操作会由一个 RDD 生成一个新的 RDD ,例如 scala> val lines = sc.textFile("README.md") 这里通 阅读全文
posted @ 2022-03-17 06:11 晓枫的春天 阅读(57) 评论(0) 推荐(0) 编辑
摘要: spark 为了达到高并发,高吞吐数据处理能力封装了三大数据对象; RDD 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 1、RDD 概述 1.1、RDD 引入之IO流 首先回顾下java 中IO的设计模式 IO流和RDD之间的关系 1.2、什么是RDD RDD(Res 阅读全文
posted @ 2022-03-15 12:57 晓枫的春天 阅读(146) 评论(0) 推荐(0) 编辑
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 45 下一页