摘要:
1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数 阅读全文
摘要:
需求描述 用户每天签到可以领1金币,并可以累计签到天数,连续签到的第3、7天分别可以额外领2和6金币。每连续签到7天重新累积签到天数。从用户登录明细表中求出每个用户金币总数,并按照金币总数倒序排序 结果如下: user_id<string>(用户id)sum_coin_cn<bigint>(金币总数 阅读全文
摘要:
需求描述 现有用户视频播放记录表(user_video_log)如下。 uid(球队名称)video_id(视频id)start_time(开始时间)end_time(结束时间)if_like(是否点赞)if_retweet(是否喜欢)comment_id(评论id) 101 2001 2021-0 阅读全文
摘要:
需求描述 现有用户出勤表(user_login)如下。 user_id(用户id)course_id(课程id)login_in(登录时间)login_out(登出时间) 1 1 2022-06-02 09:08:24 2022-06-02 10:09:36 1 1 2022-06-02 11:07 阅读全文
摘要:
需求描述 现有用户表(emp)如下。 id(员工id)en_dt(入职日期)le_dt(离职日期) 1001 2020-01-02 null 1002 2020-01-02 2020-03-05 1003 2020-02-02 2020-02-15 1004 2020-02-12 2020-03-0 阅读全文
摘要:
描述 今天刷到了一个面试题:hivesql 执行顺序,接下来就从一个带有 group by 的例子看看 hivesql 的执行顺序 执行顺序为 from ..on .. join .. where .. group by .. having .. select .. distinct .. orde 阅读全文
摘要:
说明 今天介绍下 hive 中两个常用的分布函数 数据准备 select 1 part_id, 1001 user_id, 1000 fee union all select 1, 1002, 2000 union all select 1, 1003, 3000 union all select 阅读全文
摘要:
需求描述 现有一个用户活跃表 user_active (user_id,active_date)、用户注册表 user_regist(user_id,regist_date),表中分区字段都为dt(yyyy-MM-dd),用户字段均为user_id;设计一张1-60天注册活跃留存表; 需求分析 需求 阅读全文
摘要:
需求描述 动销率定义为品类商品中一段时间内有销量的商品占当前已上架总商品数的比例(有销量的商品/已上架总商品数)。滞销率定义为品类商品中一段时间内没有销量的商品占当前已上架总商品数的比例。(没有销量的商品 / 已上架总商品数)。只要当天任一店铺有任何商品的销量就输出该天的结果,从订单明细表(orde 阅读全文
摘要:
需求描述 现有页面浏览记录表(page_view_events)如下,表中有每个用户的每次页面访问记录。 user_idpage_idview_timestamp 100 home 1659950435 100 good_search 1659950446 100 good_list 1659950 阅读全文