会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
jeasonchen001
博客园
首页
新随笔
新文章
联系
订阅
管理
2021年4月4日
sparksql遇到空值填充的问题
摘要: DataFrame.na.fill("1", Seq("col1", "col2")) 对col1和col2两列进行空值填充的时候,如果列的类型跟填充值的类型不一致的话,填充会直接忽略。
阅读全文
posted @ 2021-04-04 18:46 jeasonchen001
阅读(1365)
评论(0)
推荐(0)
编辑
2021年3月10日
数据倾斜时学习hive sql执行计划
摘要: Hive sql的一段执行计划 STAGE DEPENDENCIES: Stage-1 is a root stage Stage-6 depends on stages: Stage-1, Stage-3 , consists of Stage-7, Stage-8, Stage-2 Stage-
阅读全文
posted @ 2021-03-10 22:41 jeasonchen001
阅读(781)
评论(0)
推荐(0)
编辑
2020年12月9日
hive自定义udf和udaf
摘要: hive自定义udf和udaf 自定义udf 继承UDF类,在类里面自定定义evaluate方法,参数和返回值都是自己定义,同时一个自定义udf中可以定义多个重载的evaluate方法,根据传入参数的个数和类型来自动调用对应的evaluate方法。 package whut; import org.
阅读全文
posted @ 2020-12-09 23:43 jeasonchen001
阅读(242)
评论(0)
推荐(0)
编辑
2020年12月6日
用户维度表(拉链表的方式存储)
摘要: 数据量不小,不能全量存储, 数据缓慢变化的维度数据 拉链表的建表语句--全量表 通过有效起始时间<=时间<=有效结束时间来获取维度的全量切片数据 建表语句 drop table if exists dwd_dim_user_info_his; create external table dwd_di
阅读全文
posted @ 2020-12-06 15:45 jeasonchen001
阅读(780)
评论(0)
推荐(0)
编辑
订单事实表的创建(累积型快照事实表)
摘要: 描述的是订单各个阶段的状态 用户 地区 时间 商品 优惠券 活动 度量值 订单 √ √ √ √ 一次 订单的生命周期 下单时间=》支付时间=》取消时间=》完成时间=》退款时间=》退款完成时间 订单事实表的创建 --订单事实表 增量表, 当日只存储create_time为当日的数据, 所以create
阅读全文
posted @ 2020-12-06 13:20 jeasonchen001
阅读(946)
评论(0)
推荐(0)
编辑
2020年11月29日
优惠券使用表(累积型快照事实表案例)
摘要: 1.1 ods层的数据(增量数据,将新增和修改的数据导入ods) sqoop语法是每天将get_time 或者using_time或者used_time为当前分区时间,或者优惠券状态发生改变的数据导入ods: drop table if exists ods_coupon_use; create e
阅读全文
posted @ 2020-11-29 18:49 jeasonchen001
阅读(763)
评论(0)
推荐(0)
编辑
订单明细表中分摊金额的问题
摘要: 经典场景: 订单明细表中分摊金额的问题 ods层数据: --ods层的订单详情表 增量表 drop table if exists ods_order_detail; create external table ods_order_detail( `id` string COMMENT '编号',
阅读全文
posted @ 2020-11-29 18:16 jeasonchen001
阅读(786)
评论(0)
推荐(0)
编辑
2020年11月28日
hive建外部表时location修改问题
摘要: hive外部表时location修改问题 一、有一次建外部表的时候,忘记设置location create external table test.ads_education_course_feature_dm ( course_id string comment '课程id', course_na
阅读全文
posted @ 2020-11-28 23:31 jeasonchen001
阅读(2779)
评论(0)
推荐(0)
编辑
2020年8月30日
记录开发中的多线程bug
摘要: 问题总结 一、java问题汇总 线程池创建的问题 场景:在推荐系统开发过程中,有一个数据的获取场景,模型输出的结果必须要查redis进行映射才能得到最后的结果,redis中的数据是通过hash格式存储的,每个key对固定的field的值对应了一个结果。一次post请求要查询300次redis,为了满
阅读全文
posted @ 2020-08-30 21:31 jeasonchen001
阅读(244)
评论(1)
推荐(0)
编辑
快学scala笔记
摘要: 第1章 基础 调用函数和方法 调用函数,以math包中的函数调用为例 import scala.math._ "_"相当于java中的* pow(2, 4) 返回16.0。如果是scala开头的包,可以省略scala 方法,scala中没有静态方法 与之对应的是每一个类都有一个同名的伴生对象,定义在
阅读全文
posted @ 2020-08-30 21:16 jeasonchen001
阅读(203)
评论(0)
推荐(0)
编辑
下一页