HIve - 随笔分类 - 晓枫的春天

Hive 刷题—— 每年的在校人数

摘要：问题描述 year表示学生入学年度，num表示对应年度录取学生人数，stu_len表示录取学生的学制；说明：例如录取年度2018学制是3年，表示该批学生在校年份为2018~2019、2019~2020、2020-2021，在算每年的在校人数时，2018/2019/2020/2021年份都需要算上。阅读全文

posted @ 2024-03-29 12:57 晓枫的春天阅读(62) 评论(0) 推荐(0)

Hive 刷题——HiveSql 实现分钟级的趋势图

摘要：问题描述在Hive中，怎么用sql实现分钟级的趋势图？比如从交易表中，如何统计0点到每分钟的交易趋势图？原表：trade_A(trade_id，pay_time(格式是2020-08-05 10:30:28)，pay_gmv)。希望用sql实现分钟级的0点到当前分钟的GMV。结果表：result_ 阅读全文

posted @ 2024-03-28 12:34 晓枫的春天阅读(125) 评论(0) 推荐(0)

Hive 刷题——累计占比问题

摘要：问题描述现在有一张每个年份的每个部门的收入表。现在需要算每个部门的收入占同类型部门的收入的占比和当年整个公司的收入占比。要求一条SQL计算出来。比如研发部和产品部属于同类型的，都是产研；财务部和人事部都属于职能。 year dept income 2024 研发部 5000 2024 产品部 60 阅读全文

posted @ 2024-03-27 09:40 晓枫的春天阅读(112) 评论(0) 推荐(0)

Hive 刷题——恶意取消订单用户统计

摘要：问题描述给出了订单表数据，找出恶意退单用户(30 min 内两次取消订单用户明细) 示例数据 order_id user_id order_status operate_time 1101 a 已支付 2024-03-01 10:00:00 1102 a 已取消 2024-03-01 10:10: 阅读全文

posted @ 2024-03-26 06:41 晓枫的春天阅读(56) 评论(0) 推荐(0)

Hive 刷题——补全缺失日的月销售累计

摘要：问题描述现有一张员工的销售记录表，表样式如下。现在需要统计每个员工在2024年2月份，截止到每天的月累计销售额。注意：存在有的员工在某几天是没有销售记录的。要补0 sale_date emp_id emp_name sale_amount '2024-02-02' ,'101' ,'老王' , 2 阅读全文

posted @ 2024-03-25 08:42 晓枫的春天阅读(198) 评论(0) 推荐(0)

Hive 时间戳日期函数总结

摘要：说明基于Hive的数据开发工作中，常常用到时间戳，日期各种格式转换，今天抽时间梳理一下。 1. 获取当前UNIX时间戳函数: unix_timestamp select unix_timestamp(); 1711268556 2、UNIX时间戳转日期函数: from_unixtime selec 阅读全文

posted @ 2024-03-24 16:29 晓枫的春天阅读(510) 评论(0) 推荐(0)

Hive 刷题——奖金瓜分问题

摘要：题目描述在活动大促中，有玩游戏瓜分奖金环节。现有奖金池为3000元，代表奖金池中的初始额度。用户的分数信息如下： uid,score 1001,45 1002,40 1003,35 1004,30 1005,25 表中的数据代表每一个用户和其对应的得分，user_id和score都不会有重复值。瓜阅读全文

posted @ 2024-03-23 22:41 晓枫的春天阅读(107) 评论(0) 推荐(0)

Hive 刷题——银行可疑支付监测

摘要：场景说明有一个支付流水表，关键字段：用户，交易时间，交易金额，现在规定：两个小时内交易次数大于2且交易总结金大于100000的用户为可疑用户，现在需要使用HiveSQL 进行监测数据准备 CREATE TABLE transfer_log ( log_id INTEGER, log_ts TIM 阅读全文

posted @ 2023-08-25 15:05 晓枫的春天阅读(67) 评论(0) 推荐(0)

Hive 刷题——查看每件商品的售价涨幅情况

摘要：题目描述从商品价格变更明细表（sku_price_modify_detail），得到最近一次价格的涨幅情况，并按照涨幅升序排序。结果如下： sku_id<string>（商品id）price_change<decimal(16,2)>（涨幅） 8 -200.00 9 -100.00 2 -70. 阅读全文

posted @ 2023-08-19 15:33 晓枫的春天阅读(57) 评论(0) 推荐(0)

HIve 刷题——同一时刻异地登录问题

摘要：题目描述从登录明细表（user_login_detail）中查询在相同时刻，多地登陆（ip_address不同）的用户题目需求从登录明细表（user_login_detail）中查询在相同时刻，多地登陆（ip_address不同）的用户期望结果如下： user_id<string>(用户id 阅读全文

posted @ 2023-08-15 10:30 晓枫的春天阅读(95) 评论(0) 推荐(0)

Hive 修改计算引擎方法

摘要：前置说明各位应该清楚，hive 默认计算引擎是 mr，当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e 阅读全文

posted @ 2023-04-20 21:22 晓枫的春天阅读(901) 评论(0) 推荐(0)

SQL 刷题—直播间人气值

摘要：需求描述直播间开播记录表 t_live和直播间观看记录表t_look_log 数据如下： create table t_live ( author_id integer, --博主 live_id integer, --直播间ID live_duration integer --开播时长 ); i 阅读全文

posted @ 2023-04-05 21:26 晓枫的春天阅读(120) 评论(0) 推荐(0)

Hive 如何巧用分布函数percent_rank()剔除极值求均值

摘要：场景描述前期写过一篇关于剔除订单极值求订单均值的案例，之前使用的是 dense_rank 函数对订单金额进行排序后，过滤掉最大值最小值后进行处理，最近工作刚好使用到分布函数percent_rank，想起来应该也可以用到这个场景； percent_rank() 简介 percent_rank() 函阅读全文

posted @ 2023-04-03 22:46 晓枫的春天阅读(749) 评论(0) 推荐(0)

Hive 刷题——区间合并

摘要：需求描述给定多个时间段，每个时间段分为开始时间、结束时间，将相互重叠的多个时间段合并为一个区间。 --数据：id、开始时间、结束时间 1001 16 18 1002 17 19 1003 29 32 1004 30 31 1005 57 58 1006 44 44 1007 56 57 1008 阅读全文

posted @ 2023-02-26 09:26 晓枫的春天阅读(402) 评论(0) 推荐(0)

Hive 刷题——打车问题

摘要：需求描述现有用户下单表（get_car_record）如下。 uid(用户id)city(城市)event_time（下单时间）end_time(结束时间:取消或者接单)order_id(订单id) 107 北京 2021-09-20 11:00:00 2021-09-20 11:00:30 90 阅读全文

posted @ 2023-02-21 06:07 晓枫的春天阅读(65) 评论(0) 推荐(0)

hive数据倾斜优化

摘要：1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点 2、主要表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数阅读全文

posted @ 2023-02-20 05:13 晓枫的春天阅读(729) 评论(0) 推荐(0)

Hive 刷题——连续签到送金币

摘要：需求描述用户每天签到可以领1金币，并可以累计签到天数，连续签到的第3、7天分别可以额外领2和6金币。每连续签到7天重新累积签到天数。从用户登录明细表中求出每个用户金币总数，并按照金币总数倒序排序结果如下： user_id<string>（用户id）sum_coin_cn<bigint>（金币总数阅读全文

posted @ 2023-02-19 08:44 晓枫的春天阅读(123) 评论(0) 推荐(0)

Hive 刷题——视频热度问题

摘要：需求描述现有用户视频播放记录表（user_video_log）如下。 uid(球队名称)video_id(视频id)start_time(开始时间)end_time(结束时间)if_like(是否点赞)if_retweet(是否喜欢)comment_id(评论id) 101 2001 2021-0 阅读全文

posted @ 2023-02-18 09:43 晓枫的春天阅读(66) 评论(0) 推荐(0)

Hive 刷题——出勤率问题

摘要：需求描述现有用户出勤表（user_login）如下。 user_id(用户id)course_id(课程id)login_in（登录时间）login_out（登出时间） 1 1 2022-06-02 09:08:24 2022-06-02 10:09:36 1 1 2022-06-02 11:07 阅读全文

posted @ 2023-02-17 05:24 晓枫的春天阅读(54) 评论(0) 推荐(0)

Hive 刷题——员工在职人数问题

摘要：需求描述现有用户表（emp）如下。 id(员工id)en_dt(入职日期)le_dt(离职日期) 1001 2020-01-02 null 1002 2020-01-02 2020-03-05 1003 2020-02-02 2020-02-15 1004 2020-02-12 2020-03-0 阅读全文

posted @ 2023-02-16 12:37 晓枫的春天阅读(270) 评论(0) 推荐(0)

滴水穿石不是靠力，而是因为不舍昼夜。

随笔分类 - HIve

公告