摘要: 5.1 模块创建和数据准备 同样地,在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为OrderTimeoutDetect。在这个子模块中,我们同样将会用到flink的CEP库来实现事件流的模式匹配,所以需要在pom文件中引入CEP的相关依赖: <dep 阅读全文
posted @ 2020-07-05 22:02 花未全开*月未圆 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 4.1 模块创建和数据准备 继续在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为LoginFailDetect。在这个子模块中,我们将会用到flink的CEP库来实现事件流的模式匹配,所以需要在pom文件中引入CEP的相关依赖: <dependency 阅读全文
posted @ 2020-07-05 22:00 花未全开*月未圆 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 3.1 模块创建和数据准备 在UserBehaviorAnalysis下新建一个 maven module作为子项目,命名为NetworkTrafficAnalysis。在这个子模块中,我们同样并没有引入更多的依赖,所以也不需要改动pom文件。 在src/main/目录下,将默认源文件目录java改 阅读全文
posted @ 2020-07-05 21:59 花未全开*月未圆 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 为了统计每个窗口下最热门的商品,我们需要再次按窗口进行分组,这里根据ItemViewCount中的windowEnd进行keyBy()操作。然后使用ProcessFunction实现一个自定义的TopN函数TopNHotItems来计算点击量排名前3名的商品,并将排名结果格式化成字符串,便于后续输出 阅读全文
posted @ 2020-07-05 21:57 花未全开*月未圆 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 首先要实现的是实时热门商品统计,我们将会基于UserBehavior数据集来进行分析。 项目主体用Scala编写,采用IDEA作为开发环境进行项目编写,采用maven作为项目构建和管理工具。首先我们需要搭建项目框架。 2.1 创建Maven项目 2.1.1 项目框架搭建 打开IDEA,创建一个mav 阅读全文
posted @ 2020-07-05 14:54 花未全开*月未圆 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析,得到感兴趣的商业指标并增强对风险的控制。 电商用户行为数据多样,整体可以分为用户行为习惯数据和业务行为数据两大类。用户的行为习惯数据包括了用户的登录方 阅读全文
posted @ 2020-07-05 14:50 花未全开*月未圆 阅读(639) 评论(0) 推荐(0) 编辑
摘要: Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不 阅读全文
posted @ 2020-07-05 14:45 花未全开*月未圆 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 1 EventTime的引入 在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime。 如果要使用EventTime,那么需要引入EventTime的时间属性,引入方式如下所示: 阅读全文
posted @ 2020-07-05 14:38 花未全开*月未圆 阅读(878) 评论(0) 推荐(0) 编辑
摘要: 1 Time 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion Time:是数据进入Flink的时 阅读全文
posted @ 2020-07-05 14:20 花未全开*月未圆 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 1 Environment getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment会根 阅读全文
posted @ 2020-07-05 14:11 花未全开*月未圆 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 1 任务提交流程(yarn模式) Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster,Ap 阅读全文
posted @ 2020-07-05 13:45 花未全开*月未圆 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 1 standalone模式 1.1 安装 解压缩 flink-1.7.0-bin-hadoop27-scala_2.11.tgz 修改 flink/conf/flink-conf.yaml 文件 修改 /conf/slave文件 分发给 另外两台机子 启动 访问http://hadoop1:808 阅读全文
posted @ 2020-07-05 13:42 花未全开*月未圆 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 1、初识Flink Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。 Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林 阅读全文
posted @ 2020-07-05 13:34 花未全开*月未圆 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark,基本上已经取代了 MapReduce 成为当前大数据处理的标准。但对实时数据处理来说, Apache Sp 阅读全文
posted @ 2020-07-05 13:22 花未全开*月未圆 阅读(341) 评论(0) 推荐(0) 编辑