08 2020 档案

摘要:1 安装ZK 集群规划 服务器hadoop102 服务器hadoop103 服务器hadoop104 Zookeeper Zookeeper Zookeeper Zookeeper 2.2 ZK集群启动停止脚本 1)在hadoop102的/home/atguigu/bin目录下创建脚本 [atgui 阅读全文
posted @ 2020-08-14 20:27 秋华 编辑
摘要:1 简介 在电商网站中,订单的支付作为直接与营销收入挂钩的一环,在业务流程中非常重要。对于订单而言,为了正确控制业务流程,也为了增加用户的支付意愿,网 站一般会设置一个支付失效时间,超过一段时间不支付的订单就会被取消。另外,对于订单的支付,我们还应保证用户支付的正确性,这可以通过第三方支付平台的 交 阅读全文
posted @ 2020-08-12 18:01 秋华 编辑
摘要:1 模块创建和数据准备 继续在 UserBehaviorAnalysis 下新建一个 maven module 作为子项目,命名为LoginFailDetect。在这个子模块中,我们将会用到 flink 的 CEP 库来实现事件流的模 式匹配,所以需要在 pom 文件中引入 CEP 的相关依赖: < 阅读全文
posted @ 2020-08-12 17:43 秋华 编辑
摘要:1 模块创建和数据准备 继续在 UserBehaviorAnalysis 下新建一个 maven module 作为子项目,命名为MarketAnalysis。 这个模块中我们没有现成的数据,所以会用自定义的测试源来产生测试数据流,或者直接用生成测试数据文件。 2 APP 市场推广统计 随着智能手机 阅读全文
posted @ 2020-08-12 17:29 秋华 编辑
摘要:网站独立访客数(UV)的统计 另外一个统计流量的重要指标是网站的独立访客数(Unique Visitor,UV)。UV指的是一段时间(比如一小时)内访问网站的总人数,1 天内同一访客的多次访问 只记录为一个访客。通过 IP 和 cookie 一般是判断 UV 值的两种方式。当客户端第一次访问某个网站 阅读全文
posted @ 2020-08-12 16:49 秋华 编辑
摘要:1 模块创建和数据准备 在 UserBehaviorAnalysis 下 新 建 一 个 maven module 作 为 子 项 目 , 命 名 为NetworkFlowAnalysis。在这个子模块中,我们同样并没有引入更多的依赖,所以也 不需要改动 pom 文件。 在 src/main/目录下 阅读全文
posted @ 2020-08-12 16:21 秋华 编辑
摘要:1.简介 首先要实现的是实时热门商品统计,我们将会基于 UserBehavior 数据集来进行分析。 项目主体用 Scala 编写,采用 IDEA 作为开发环境进行项目编写,采用 maven作为项目构建和管理工具。首先我们需要搭建项目框架。 2 创建 Maven 项目 2.1 项目框架搭建 打开 I 阅读全文
posted @ 2020-08-12 16:01 秋华 编辑
摘要:1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析,得到感兴趣的商 业指标并增强对风险的控制。 电商用户行为数据多样,整体可以分为用户行为习惯数据和业务行为数据两大类。用户的行为习惯数据包括了用户的登录方式 阅读全文
posted @ 2020-08-12 15:13 秋华 编辑
摘要:1.什么是 CEP 概念: 一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。 特征:  目标:从有序的简单事件流中发现一些高阶特征  输入:一个或多个由简单事件构成的事件流  处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂 阅读全文
posted @ 2020-08-11 11:22 秋华 编辑
摘要:问题 运行Flink scala程序时,提示如下错误,但仔细检查UserBehavior样例类的确仅定义了一次。 解决 右击重新编译代码,再运行。至于原因还不清楚。 阅读全文
posted @ 2020-08-09 20:49 秋华 编辑
摘要:https://my.oschina.net/kyle1970/blog/2396318/print kafka 0.9.x以后的版本,有一个配置属性叫advertised.listeners,在server.properties中,该属性默认是注释掉的,解释如下: #Hostname and po 阅读全文
posted @ 2020-08-07 21:34 秋华 编辑
摘要:工具 进入IDEA,安装Scala插件,或者自己导入插件 方法1: 方法2: 4.点击 ok->apply -> 重启 idea 即可 开发 步骤 1:file->new project -> 选择 maven 步骤 2. 步骤 3. 步骤 4:默认下,maven 不支持 scala 的开发,需要引 阅读全文
posted @ 2020-08-06 01:48 秋华 编辑
摘要:什么是Table API和Flink SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运 阅读全文
posted @ 2020-08-04 14:45 秋华 编辑
摘要:什么是复杂事件CEP? 一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。 特征: 目标:从有序的简单事件流中发现一些高阶特征 输入:一个或多个由简单事件构成的事件流 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件 输出:满足 阅读全文
posted @ 2020-08-04 14:23 秋华 编辑
摘要:1 部署方式 1.1 独立集群 独立集群包含至少一个master进程,以及至少一个TaskManager进程,TaskManager进程运行在一台或者多台机器上。所有的进程都是JVM进程。下图展示了独立集群的部署。 master进程在不同的线程中运行了一个Dispatcher和一个ResourceM 阅读全文
posted @ 2020-08-04 14:03 秋华 编辑
摘要:0 简介 数据可以存储在不同的系统中,例如:文件系统,对象存储系统(OSS),关系型数据库,Key-Value存储,搜索引擎索引,日志系统,消息队列,等等。每一种系统都是给特定的应用场景设计的,在某一个特定的目标上超越了其他系统。今天的数据架构,往往包含着很多不同的存储系统。在将一个组件加入到我们的 阅读全文
posted @ 2020-08-04 12:25 秋华 编辑
摘要:状态操作符和用户自定义函数都是我们在写流处理程序时,常用的工具。事实上,大部分稍微复杂一点的逻辑都需要保存数据或者保存计算结果。很多Flink内置的操作符例如:source操作符,sink操作符等等都是有状态的,也就是说会缓存流数据或者计算结果。例如,窗口操作符将会为ProcessWindowFun 阅读全文
posted @ 2020-08-04 11:51 秋华 编辑
摘要:1 基于时间的双流Join 数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。 如果Flink内置的J 阅读全文
posted @ 2020-08-04 11:34 秋华 编辑
摘要:1 窗口操作符 窗口操作是流处理程序中很常见的操作。窗口操作允许我们在无限流上的一段有界区间上面做聚合之类的操作。而我们使用基于时间的逻辑来定义区间。窗口操作符提供了一种将数据放进一个桶,并根据桶中的数据做计算的方法。例如,我们可以将事件放进5分钟的滚动窗口中,然后计数。 无限流转化成有限数据的方法 阅读全文
posted @ 2020-08-03 23:21 秋华 编辑
摘要:在本章,我们将要学习DataStream API中处理时间和基于时间的操作符,例如窗口操作符。 首先,我们会学习如何定义时间属性,时间戳和水位线。然后我们将会学习底层操作process function,它可以让我们访问时间戳和水位线,以及注册定时器事件。接下来,我们将会使用Flink的window 阅读全文
posted @ 2020-08-03 22:24 秋华 编辑
摘要:1 设置并行度 Flink应用程序在一个像集群这样的分布式环境中并行执行。当一个数据流程序提交到作业管理器执行时,系统将会创建一个数据流图,然后准备执行需要的操作符。每一个操作符将会并行化到一个或者多个任务中去。每个算子的并行任务都会处理这个算子的输入流中的一份子集。一个算子并行任务的个数叫做算子的 阅读全文
posted @ 2020-08-03 21:34 秋华 编辑
摘要:1 产生传感器读数代码编写(读取数据源) 1.1 从批读取数据 scala version val stream = env .fromElements( SensorReading("sensor_1", 1547718199, 35.80018327300259), SensorReading( 阅读全文
posted @ 2020-08-03 21:14 秋华 编辑
摘要:本章介绍了Flink DataStream API的基本知识。我们展示了典型的Flink流处理程序的结构和组成部分,还讨论了Flink的类型系统以及支持的数据类型,还展示了数据和分区转换操作。窗口操作符,基于时间语义的转换操作,有状态的操作符,以及和外部系统的连接器将在接下来的章节进行介绍。阅读完这 阅读全文
posted @ 2020-08-03 20:49 秋华 编辑
摘要:1 在IDEA中编写Flink程序 Scala版Flink程序编写 本项目使用的Flink版本为最新版本,也就是1.11.0。现在提供maven项目的配置文件。 使用Intellij IDEA创建一个Maven新项目 勾选Create from archetype,然后点击Add Archetype 阅读全文
posted @ 2020-08-03 19:54 秋华 编辑
摘要:1 系统架构 Flink是一个用于有状态的并行数据流处理的分布式系统。它由多个进程构成,这些进程一般会分布运行在不同的机器上。对于分布式系统来说,面对的常见问题有:集群中资源的分配和管理、进程协调调度、持久化和高可用的数据存储,以及故障恢复。 对于这些分布式系统的经典问题,业内已有比较成熟的解决方案 阅读全文
posted @ 2020-08-03 18:54 秋华 编辑
摘要:1 数据流编程简介 在我们深入研究流处理的基础知识之前,让我们来看看在数据流程编程的背景和使用的术语。 1.1 数据流图 顾名思义,数据流程序描述了数据如何在算子之间流动。数据流程序通常表示为有向图,其中节点称为算子,用来表示计算,边表示数据之间的依赖性。算子是数据流程序的基本功能单元。他们从输入消 阅读全文
posted @ 2020-08-03 17:39 秋华 编辑
摘要:1 初识 Flink Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执 阅读全文
posted @ 2020-08-03 17:24 秋华 编辑
摘要:0 简介 Apache Flink是一个分布式流处理器,具有直观和富有表现力的API,可实现有状态的流处理应用程序。它以容错的方式有效地大规模运行这些应用程序。 Flink于2014年4月加入Apache软件基金会作为孵化项目,并于2015年1月成为顶级项目。从一开始,Flink就拥有一个非常活跃且 阅读全文
posted @ 2020-08-03 17:16 秋华 编辑

点击右上角即可分享
微信分享提示