上一页 1 2 3 4 5 6 7 8 ··· 19 下一页
摘要: 3.1 Spark通信架构概述 Spark2.x版本使用Netty通讯框架作为内部通讯组件。spark 基于netty新的rpc框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示: Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个 阅读全文
posted @ 2020-08-23 14:08 花未全开*月未圆 阅读(250) 评论(0) 推荐(0) 编辑
摘要: Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症 阅读全文
posted @ 2020-08-23 11:45 花未全开*月未圆 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 一.SparkSQL相关 在执行insert 语句时报错,堆栈信息为:FileSystem closed。常常出现在ThriftServer里面。 原因:由于hadoop FileSystem.get 获得的FileSystem会从缓存加载,如果多线程一个线程closedFileSystem会导致该 阅读全文
posted @ 2020-08-07 11:34 花未全开*月未圆 阅读(3830) 评论(1) 推荐(0) 编辑
摘要: 1 什么是kafka Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 2 为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰:上游数据时有突发 阅读全文
posted @ 2020-07-19 15:48 花未全开*月未圆 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 数仓构建: 1). 前期业务调研 需求调研 数据调研 技术选型 2). 提炼业务模型,总线矩阵,划分主题域; 3). 定制规范 命名规范、开发规范、流程规范 4). 数仓架构分层:一般分为 操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD 阅读全文
posted @ 2020-07-09 22:21 花未全开*月未圆 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 5.1 模块创建和数据准备 同样地,在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为OrderTimeoutDetect。在这个子模块中,我们同样将会用到flink的CEP库来实现事件流的模式匹配,所以需要在pom文件中引入CEP的相关依赖: <dep 阅读全文
posted @ 2020-07-05 22:02 花未全开*月未圆 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 4.1 模块创建和数据准备 继续在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为LoginFailDetect。在这个子模块中,我们将会用到flink的CEP库来实现事件流的模式匹配,所以需要在pom文件中引入CEP的相关依赖: <dependency 阅读全文
posted @ 2020-07-05 22:00 花未全开*月未圆 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 3.1 模块创建和数据准备 在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为NetworkTrafficAnalysis。在这个子模块中,我们同样并没有引入更多的依赖,所以也不需要改动pom文件。 在src/main/目录下,将默认源文件目录java改 阅读全文
posted @ 2020-07-05 21:59 花未全开*月未圆 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 为了统计每个窗口下最热门的商品,我们需要再次按窗口进行分组,这里根据ItemViewCount中的windowEnd进行keyBy()操作。然后使用ProcessFunction实现一个自定义的TopN函数TopNHotItems来计算点击量排名前3名的商品,并将排名结果格式化成字符串,便于后续输出 阅读全文
posted @ 2020-07-05 21:57 花未全开*月未圆 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 首先要实现的是实时热门商品统计,我们将会基于UserBehavior数据集来进行分析。 项目主体用Scala编写,采用IDEA作为开发环境进行项目编写,采用maven作为项目构建和管理工具。首先我们需要搭建项目框架。 2.1 创建Maven项目 2.1.1 项目框架搭建 打开IDEA,创建一个mav 阅读全文
posted @ 2020-07-05 14:54 花未全开*月未圆 阅读(477) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 19 下一页