摘要:
Mysql 是常用的轻量级关系型数据库,也是常见的数据库软件之一,今天记录一下安装mysql的方法,便以后使用 1、软件准备 01_mysql-community-common-5.7.16-1.el7.x86_64.rpm 02_mysql-community-libs-5.7.16-1.el7. 阅读全文
摘要:
一、Yarn 部署简介 Spark自身提供计算资源,无需其他框架提供资源。But 这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。请注意:Spark主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。接下来我们看一下在 阅读全文
摘要:
1、Zookeeper 内部原理 1.1、Zookeeper 内部选举机制 (1)服务器1启动,此时只有它一台服务器启动了,它发出去的报文没有任何响应,所以它的选举状态一直是 LOOKING状态。 (2)服务器2启动,它与最开始启动的服务器1进行通信,互相交换自己的选举结果,由于两者都没有历史数据, 阅读全文
摘要:
1、Zookeeper 概述 1.1、概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目 工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的 阅读全文
摘要:
一、概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX 设计 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成 阅读全文
摘要:
需求 表temp_user_login,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录) ,包含三个字段:日期 date 用户id user_id if_login 0 未签到 1 签到 问题1:统计截至当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到 阅读全文
摘要:
需求 原始数据 year tag 2014 1 2015 1 2016 0 2017 0 2018 0 2020 1 2021 1 2022 1 结果数据 2014 1 1 2015 1 2 2016 0 1 2017 0 2 2018 0 3 2020 1 1 2021 1 2 2022 1 3 阅读全文
摘要:
需求描述 有一张记录用户购物信息表,第一个字段 shop_id 订单ID,第二个字段 commodity_id 物品ID,第三个字段 sale 物品金额, 110 1 10 订单ID110 物品ID1 金额10 现在要求出每个订单中剔除物品金额最大最小后的平均值。 原始数据 shop_id comm 阅读全文
摘要:
Sink有下沉的意思,在Flink中所谓的Sink其实可以表示为将数据存储起来的意思,也可以将范围扩大,表示将处理完的数据发送到指定的存储系统的输出操作. 之前我们一直在使用的print方法其实就是一种Sink kafkaSink 依赖添加 <dependency> <groupId>org.apa 阅读全文
摘要:
需求描述 数据如下 问题: 用户总量,用户平均年龄,用户平均观看时长 每10岁一个分段,统计每个区间的用户总量,用户平均观看时长 每个用户最喜欢的节目 观看时长大于5min的用户总量,只要有一个节目用户观看时间小于5min就不能算 数据准备 create table temp_userlook_03 阅读全文