摘要: drop table sospdm.tmp_yinfei_yuanzuan_redbag; create table sospdm.tmp_yinfei_yuanzuan_redbag stored as rcfile as select member_no,red_amount,process_t 阅读全文
posted @ 2019-04-22 18:44 问题不大1 阅读(971) 评论(0) 推荐(0) 编辑
摘要: 1.窗口函数2015年4月份购买过的顾客及总人数 select distinct name,count(1) over() as cnt from test_window_yfwhere substr(orderdate,1,7)='2015-04'; select name,count(1) ov 阅读全文
posted @ 2019-04-22 18:40 问题不大1 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 桶表也是一种用于优化查询而设计的表类型。创建通表时,指定桶的个数、分桶的依据字段,hive就可以自动将数据分桶存储。查询时只需要遍历一个桶里的数据,或者遍历部分桶,这样就提高了查询效率 创建订单表create table user_leads(leads_id string,user_id stri 阅读全文
posted @ 2019-04-22 18:39 问题不大1 阅读(1168) 评论(0) 推荐(0) 编辑
摘要: hive提前过滤 阅读全文
posted @ 2019-04-22 17:56 问题不大1 阅读(890) 评论(0) 推荐(0) 编辑
摘要: 一、UDF函数编写 1.步骤 2.案例 实现lower函数: 3.打成jar包上传 mvn clean package 4.在hive中创建临时函数 二、UDAF函数编写 1.步骤 2.案例 实现avg 实现sum 3.打包 mvn clean package 4.创建临时函数 三、UDTF函数编写 阅读全文
posted @ 2019-04-22 09:55 问题不大1 阅读(2158) 评论(0) 推荐(0) 编辑
摘要: 一、相关配置参数 1.同级目录resource文件夹下配置 2.topic: 3.流程 从hive表中读取相关字段,封装成json格式,抛kafka 二、相关代码(scala) 阅读全文
posted @ 2019-04-22 09:52 问题不大1 阅读(4698) 评论(1) 推荐(0) 编辑
摘要: 一、hive常用参数 0.常用参数 1.任务名设置 2.输入合并参数设置 3.输出合并参数设置 4.reduce设置 5.mapjoin参数设置 6.map端聚合 7.mapreduce的物理内存、虚拟内存 8.动态分区 9. shuffle端内存溢出oom (BoundedByteArrayOut 阅读全文
posted @ 2019-04-22 08:52 问题不大1 阅读(4684) 评论(0) 推荐(0) 编辑