02 2023 档案

摘要:什么是JDK、JRE JDK (Java Development Kit):是Java程序开发工具包,包含JRE 和开发人员使用的工具。 JRE (Java Runtime Environment) :是Java程序的运行时环境,包含JVM 和运行时所需要的核心类库。 如下是Java 8.0 Pla 阅读全文
posted @ 2023-02-28 22:28 晓枫的春天 阅读(32) 评论(0) 推荐(0) 编辑
摘要:Java概述 是SUN(Stanford University Network,斯坦福大学网络公司 ) 1995年推出的一门高级编程语言。 是一种面向Internet的编程语言。Java一开始富有吸引力是因为Java程序可以在Web浏览器中运行。这些Java程序被称为Java小程序(applet), 阅读全文
posted @ 2023-02-27 23:10 晓枫的春天 阅读(172) 评论(0) 推荐(0) 编辑
摘要:需求描述 给定多个时间段,每个时间段分为开始时间、结束时间,将相互重叠的多个时间段合并为一个区间。 --数据:id、开始时间、结束时间 1001 16 18 1002 17 19 1003 29 32 1004 30 31 1005 57 58 1006 44 44 1007 56 57 1008 阅读全文
posted @ 2023-02-26 09:26 晓枫的春天 阅读(329) 评论(0) 推荐(0) 编辑
摘要:计算机语言是什么 语言:是人与人之间用于沟通的一种方式。例如:中国人与中国人用普通话沟通。而中国人要和英国人交流,可以使用英语或普通话。 计算机编程语言:就是人与计算机交流的方式。人们可以使用编程语言对计算机下达命令,让计算机完成人们需要的功能。 计算机语言有很多种。如:C 、C++、Java、Go 阅读全文
posted @ 2023-02-26 08:03 晓枫的春天 阅读(373) 评论(0) 推荐(0) 编辑
摘要:DOS(Disk Operating System,磁盘操作系统)是Microsoft公司在Windows之前推出的一个操作系统,是单用户、单任务(即只能执行一个任务)的操作系统。现在被Windows系统取代。 进入DOS操作窗口 进入和回退命令 操作说明 盘符名称: 盘符切换。E:回车,表示切换到 阅读全文
posted @ 2023-02-25 21:09 晓枫的春天 阅读(18) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有用户下单表(get_car_record)如下。 uid(用户id)city(城市)event_time(下单时间)end_time(结束时间:取消或者接单)order_id(订单id) 107 北京 2021-09-20 11:00:00 2021-09-20 11:00:30 90 阅读全文
posted @ 2023-02-21 06:07 晓枫的春天 阅读(43) 评论(0) 推荐(0) 编辑
摘要:1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数 阅读全文
posted @ 2023-02-20 05:13 晓枫的春天 阅读(557) 评论(0) 推荐(0) 编辑
摘要:需求描述 用户每天签到可以领1金币,并可以累计签到天数,连续签到的第3、7天分别可以额外领2和6金币。每连续签到7天重新累积签到天数。从用户登录明细表中求出每个用户金币总数,并按照金币总数倒序排序 结果如下: user_id<string>(用户id)sum_coin_cn<bigint>(金币总数 阅读全文
posted @ 2023-02-19 08:44 晓枫的春天 阅读(88) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有用户视频播放记录表(user_video_log)如下。 uid(球队名称)video_id(视频id)start_time(开始时间)end_time(结束时间)if_like(是否点赞)if_retweet(是否喜欢)comment_id(评论id) 101 2001 2021-0 阅读全文
posted @ 2023-02-18 09:43 晓枫的春天 阅读(42) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有用户出勤表(user_login)如下。 user_id(用户id)course_id(课程id)login_in(登录时间)login_out(登出时间) 1 1 2022-06-02 09:08:24 2022-06-02 10:09:36 1 1 2022-06-02 11:07 阅读全文
posted @ 2023-02-17 05:24 晓枫的春天 阅读(38) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有用户表(emp)如下。 id(员工id)en_dt(入职日期)le_dt(离职日期) 1001 2020-01-02 null 1002 2020-01-02 2020-03-05 1003 2020-02-02 2020-02-15 1004 2020-02-12 2020-03-0 阅读全文
posted @ 2023-02-16 12:37 晓枫的春天 阅读(208) 评论(0) 推荐(0) 编辑
摘要:描述 今天刷到了一个面试题:hivesql 执行顺序,接下来就从一个带有 group by 的例子看看 hivesql 的执行顺序 执行顺序为 from ..on .. join .. where .. group by .. having .. select .. distinct .. orde 阅读全文
posted @ 2023-02-15 04:50 晓枫的春天 阅读(185) 评论(0) 推荐(0) 编辑
摘要:说明 今天介绍下 hive 中两个常用的分布函数 数据准备 select 1 part_id, 1001 user_id, 1000 fee union all select 1, 1002, 2000 union all select 1, 1003, 3000 union all select 阅读全文
posted @ 2023-02-13 16:13 晓枫的春天 阅读(366) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有一个用户活跃表 user_active (user_id,active_date)、用户注册表 user_regist(user_id,regist_date),表中分区字段都为dt(yyyy-MM-dd),用户字段均为user_id;设计一张1-60天注册活跃留存表; 需求分析 需求 阅读全文
posted @ 2023-02-12 07:19 晓枫的春天 阅读(136) 评论(0) 推荐(0) 编辑
摘要:需求描述 动销率定义为品类商品中一段时间内有销量的商品占当前已上架总商品数的比例(有销量的商品/已上架总商品数)。滞销率定义为品类商品中一段时间内没有销量的商品占当前已上架总商品数的比例。(没有销量的商品 / 已上架总商品数)。只要当天任一店铺有任何商品的销量就输出该天的结果,从订单明细表(orde 阅读全文
posted @ 2023-02-11 08:01 晓枫的春天 阅读(118) 评论(0) 推荐(0) 编辑
摘要:需求描述 现有页面浏览记录表(page_view_events)如下,表中有每个用户的每次页面访问记录。 user_idpage_idview_timestamp 100 home 1659950435 100 good_search 1659950446 100 good_list 1659950 阅读全文
posted @ 2023-02-10 05:56 晓枫的春天 阅读(186) 评论(0) 推荐(0) 编辑
摘要:问题描述 想要从用户表 temp_user_list 取一些数据,具体取数逻辑如下: prov_id ='011' 并且 product_id = '1195362,或者 prov_id ='010' 并且 product_id = '1089562, 这个题目是不是很简单,但是仔细想来实现起来有很 阅读全文
posted @ 2023-02-09 05:09 晓枫的春天 阅读(49) 评论(0) 推荐(0) 编辑
摘要:定义 hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格在严格模式下无法执行,通过设置hive.mapred.mode的值为strict,可以禁止以下3种类型的查询: 设置方法 //设置严格模式 set hive.mapred.mode=strict 阅读全文
posted @ 2023-02-08 08:07 晓枫的春天 阅读(636) 评论(0) 推荐(1) 编辑
摘要:有以下数据 select explode(array(2, 3, 4)) num; 结果 num 2 3 4 需求1、数据扩充: 输出结果如下所示: 4 1,4,3,2 3 1,3,2 2 1,2 参考实现 select t.num,concat_ws(',',collect_set(cast(t1 阅读全文
posted @ 2023-02-07 06:52 晓枫的春天 阅读(41) 评论(0) 推荐(0) 编辑
摘要:说明 聊到 hive,就少不了灵活的开窗函数,今天介绍下开窗函数中 over 子句内部经常会用到的 rows 和 range 的用法; 数据准备 create table temp_id_0116 ( id int ) stored as orc tblproperties ("orc.compre 阅读全文
posted @ 2023-02-06 11:45 晓枫的春天 阅读(896) 评论(0) 推荐(0) 编辑
摘要:需求描述 有如下数据 create table temp_user_log ( uid int comment '用户id', artical_id int comment '视频id', in_time string comment '进入时间', out_time string comment 阅读全文
posted @ 2023-02-05 08:54 晓枫的春天 阅读(102) 评论(0) 推荐(0) 编辑
摘要:数据库规范化是使用一系列范式设计数据库(通常是关系型数据库)的过程,其目的是减少数据冗余,增强数据的一致性。这一系列范式就是指在设计关系型数据库时,需要遵从的不同的规范。关系型数据库的范式一共有六种,分别是第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范 阅读全文
posted @ 2023-02-04 09:23 晓枫的春天 阅读(74) 评论(0) 推荐(0) 编辑
摘要:需求描述 从用户登录明细表(user_login_detail)中首次登录算作当天新增,第二天也登录了算作一日留存 结果如下: first_login (注册时间) register (新增用户数) retention <decimal(16,2)> (留存率) 2021-09-21 1 0.00 阅读全文
posted @ 2023-02-03 11:39 晓枫的春天 阅读(227) 评论(0) 推荐(0) 编辑
摘要:需求描述 商家要求每个商品每个月需要售卖出一定的销售总额假设1号商品销售总额大于21000,2号商品销售总额大于10000,其余商品没有要求请写出SQL从订单详情表中(order_detail)查询连续两个月销售总额大于等于任务总额的商品 结果如下: sku_id (商品id) 1 需要用到的表: 阅读全文
posted @ 2023-02-02 09:41 晓枫的春天 阅读(46) 评论(0) 推荐(0) 编辑
摘要:需求描述 从登录明细表(user_login_detail)中查询每个用户两个登录日期(以login_ts为准)之间的最大的空档期。统计最大空档期时,用户最后一次登录至今的空档也要考虑在内,假设今天为2021-10-10。 期望结果如下: user_id (用户id) max_diff (最大空档期 阅读全文
posted @ 2023-02-01 11:16 晓枫的春天 阅读(59) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示