2020 年 7月 5 日随笔档案 - 花未全开*月未圆

2020年7月5日

摘要： 5.1 模块创建和数据准备同样地，在UserBehaviorAnalysis下新建一个 maven module作为子项目，命名为OrderTimeoutDetect。在这个子模块中，我们同样将会用到flink的CEP库来实现事件流的模式匹配，所以需要在pom文件中引入CEP的相关依赖： <dep 阅读全文

posted @ 2020-07-05 22:02 花未全开*月未圆阅读(627) 评论(0) 推荐(0) 编辑

Flink模拟项目: 恶意登录监控

摘要： 4.1 模块创建和数据准备继续在UserBehaviorAnalysis下新建一个 maven module作为子项目，命名为LoginFailDetect。在这个子模块中，我们将会用到flink的CEP库来实现事件流的模式匹配，所以需要在pom文件中引入CEP的相关依赖： <dependency 阅读全文

posted @ 2020-07-05 22:00 花未全开*月未圆阅读(513) 评论(0) 推荐(0) 编辑

Flink模拟项目：实时流量统计

摘要： 3.1 模块创建和数据准备在UserBehaviorAnalysis下新建一个 maven module作为子项目，命名为NetworkTrafficAnalysis。在这个子模块中，我们同样并没有引入更多的依赖，所以也不需要改动pom文件。在src/main/目录下，将默认源文件目录java改阅读全文

posted @ 2020-07-05 21:59 花未全开*月未圆阅读(1076) 评论(0) 推荐(0) 编辑

Flink模拟项目：计算最热门Top N商品

摘要：为了统计每个窗口下最热门的商品，我们需要再次按窗口进行分组，这里根据ItemViewCount中的windowEnd进行keyBy()操作。然后使用ProcessFunction实现一个自定义的TopN函数TopNHotItems来计算点击量排名前3名的商品，并将排名结果格式化成字符串，便于后续输出阅读全文

posted @ 2020-07-05 21:57 花未全开*月未圆阅读(800) 评论(0) 推荐(0) 编辑

flink模拟项目：实时热门商品统计

摘要：首先要实现的是实时热门商品统计，我们将会基于UserBehavior数据集来进行分析。项目主体用Scala编写，采用IDEA作为开发环境进行项目编写，采用maven作为项目构建和管理工具。首先我们需要搭建项目框架。 2.1 创建Maven项目 2.1.1 项目框架搭建打开IDEA，创建一个mav 阅读全文

posted @ 2020-07-05 14:54 花未全开*月未圆阅读(487) 评论(0) 推荐(0) 编辑

flink模拟项目：项目整体介绍

摘要： 1.1 电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的控制。电商用户行为数据多样，整体可以分为用户行为习惯数据和业务行为数据两大类。用户的行为习惯数据包括了用户的登录方阅读全文

posted @ 2020-07-05 14:50 花未全开*月未圆阅读(644) 评论(0) 推荐(0) 编辑

第八章 Table API 与SQL

摘要： Table API是流处理和批处理通用的关系型API，Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的，Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不阅读全文

posted @ 2020-07-05 14:45 花未全开*月未圆阅读(583) 评论(0) 推荐(0) 编辑

第七章 EventTime与Window

摘要： 1 EventTime的引入在Flink的流式处理中，绝大部分的业务都会使用eventTime，一般只在eventTime无法使用时，才会被迫使用ProcessingTime或者IngestionTime。如果要使用EventTime，那么需要引入EventTime的时间属性，引入方式如下所示：阅读全文

posted @ 2020-07-05 14:38 花未全开*月未圆阅读(883) 评论(0) 推荐(0) 编辑

第六章 Time与Window

摘要： 1 Time 在Flink的流式处理中，会涉及到时间的不同概念，如下图所示： Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳。 Ingestion Time：是数据进入Flink的时阅读全文

posted @ 2020-07-05 14:20 花未全开*月未圆阅读(281) 评论(0) 推荐(0) 编辑

第五章 Flink 流处理Api

摘要： 1 Environment getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutionEnvironment会根阅读全文

posted @ 2020-07-05 14:11 花未全开*月未圆阅读(582) 评论(0) 推荐(0) 编辑

第四章 Flink运行架构

摘要： 1 任务提交流程（yarn模式） Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster，Ap 阅读全文

posted @ 2020-07-05 13:45 花未全开*月未圆阅读(314) 评论(0) 推荐(0) 编辑

第三章 Flink部署

摘要： 1 standalone模式 1.1 安装解压缩 flink-1.7.0-bin-hadoop27-scala_2.11.tgz 修改 flink/conf/flink-conf.yaml 文件修改 /conf/slave文件分发给另外两台机子启动访问http://hadoop1:808 阅读全文

posted @ 2020-07-05 13:42 花未全开*月未圆阅读(247) 评论(0) 推荐(0) 编辑

第一章 Flink简介

摘要： 1、初识Flink Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 Flink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林阅读全文

posted @ 2020-07-05 13:34 花未全开*月未圆阅读(225) 评论(0) 推荐(0) 编辑

初识 Flink

摘要：在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark，基本上已经取代了 MapReduce 成为当前大数据处理的标准。但对实时数据处理来说， Apache Sp 阅读全文

posted @ 2020-07-05 13:22 花未全开*月未圆阅读(349) 评论(0) 推荐(0) 编辑

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

公告