上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 45 下一页
摘要: 1、Zookeeper 概述 1.1、概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目 工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的 阅读全文
posted @ 2022-03-13 13:08 晓枫的春天 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一、概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX 设计 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成 阅读全文
posted @ 2022-03-10 16:36 晓枫的春天 阅读(2049) 评论(0) 推荐(0) 编辑
摘要: 需求 表temp_user_login,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录) ,包含三个字段:日期 date 用户id user_id if_login 0 未签到 1 签到 问题1:统计截至当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到 阅读全文
posted @ 2022-03-10 12:25 晓枫的春天 阅读(526) 评论(0) 推荐(2) 编辑
摘要: 需求 原始数据 year tag 2014 1 2015 1 2016 0 2017 0 2018 0 2020 1 2021 1 2022 1 结果数据 2014 1 1 2015 1 2 2016 0 1 2017 0 2 2018 0 3 2020 1 1 2021 1 2 2022 1 3 阅读全文
posted @ 2022-03-09 17:06 晓枫的春天 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 需求描述 有一张记录用户购物信息表,第一个字段 shop_id 订单ID,第二个字段 commodity_id 物品ID,第三个字段 sale 物品金额, 110 1 10 订单ID110 物品ID1 金额10 现在要求出每个订单中剔除物品金额最大最小后的平均值。 原始数据 shop_id comm 阅读全文
posted @ 2022-03-08 16:26 晓枫的春天 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Sink有下沉的意思,在Flink中所谓的Sink其实可以表示为将数据存储起来的意思,也可以将范围扩大,表示将处理完的数据发送到指定的存储系统的输出操作. 之前我们一直在使用的print方法其实就是一种Sink kafkaSink 依赖添加 <dependency> <groupId>org.apa 阅读全文
posted @ 2022-03-07 17:53 晓枫的春天 阅读(141) 评论(0) 推荐(1) 编辑
摘要: 需求描述 数据如下 问题: 用户总量,用户平均年龄,用户平均观看时长 每10岁一个分段,统计每个区间的用户总量,用户平均观看时长 每个用户最喜欢的节目 观看时长大于5min的用户总量,只要有一个节目用户观看时间小于5min就不能算 数据准备 create table temp_userlook_03 阅读全文
posted @ 2022-03-07 17:19 晓枫的春天 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 数据准备 desc temp_shop_info; select * from temp_shop_info; shop_id commodity_id sale 110 1 10 110 2 20 110 3 30 110 4 50 110 5 60 110 6 20 110 7 80 111 1 阅读全文
posted @ 2022-03-05 21:19 晓枫的春天 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 问题描述 不知怎得最近在启动测试环境的时候 hdfs 总是进入安全模式,无奈手动离开此模式才能进行正常操作 [hui@hadoop201 ~]$ hdfs dfsadmin -safemode get Safe mode is ON [hui@hadoop201 ~]$ hdfs dfsadmin 阅读全文
posted @ 2022-03-05 16:56 晓枫的春天 阅读(635) 评论(0) 推荐(1) 编辑
摘要: 需求 对同一个用户,在同一个位置,连续的多条记录进行合并 合并原则:开始时间取最早的,停留时长加和 字段 userID, locationID, time, duration 样例数据 user_a location_a 2022-02-03 08:00:00 60 user_a location_ 阅读全文
posted @ 2022-03-04 11:07 晓枫的春天 阅读(334) 评论(0) 推荐(0) 编辑
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 45 下一页