2019 年 4月 22 日随笔档案 - 问题不大1

2019年4月22日

摘要： drop table sospdm.tmp_yinfei_yuanzuan_redbag; create table sospdm.tmp_yinfei_yuanzuan_redbag stored as rcfile as select member_no,red_amount,process_t 阅读全文

posted @ 2019-04-22 18:44 问题不大1 阅读(971) 评论(0) 推荐(0) 编辑

hive有关函数

摘要： 1.窗口函数2015年4月份购买过的顾客及总人数 select distinct name,count(1) over() as cnt from test_window_yfwhere substr(orderdate,1,7)='2015-04'; select name,count(1) ov 阅读全文

posted @ 2019-04-22 18:40 问题不大1 阅读(199) 评论(0) 推荐(0) 编辑

hive中的分桶表

摘要：桶表也是一种用于优化查询而设计的表类型。创建通表时，指定桶的个数、分桶的依据字段，hive就可以自动将数据分桶存储。查询时只需要遍历一个桶里的数据，或者遍历部分桶，这样就提高了查询效率创建订单表create table user_leads(leads_id string,user_id stri 阅读全文

posted @ 2019-04-22 18:39 问题不大1 阅读(1168) 评论(0) 推荐(0) 编辑

hive提前过滤重要性

摘要： hive提前过滤阅读全文

posted @ 2019-04-22 17:56 问题不大1 阅读(890) 评论(0) 推荐(0) 编辑

UDF、UDAF、UDTF函数编写

摘要：一、UDF函数编写 1.步骤 2.案例实现lower函数: 3.打成jar包上传 mvn clean package 4.在hive中创建临时函数二、UDAF函数编写 1.步骤 2.案例实现avg 实现sum 3.打包 mvn clean package 4.创建临时函数三、UDTF函数编写阅读全文

posted @ 2019-04-22 09:55 问题不大1 阅读(2158) 评论(0) 推荐(0) 编辑

使用sparksql往kafka推送数据

摘要：一、相关配置参数 1.同级目录resource文件夹下配置 2.topic： 3.流程从hive表中读取相关字段，封装成json格式，抛kafka 二、相关代码(scala) 阅读全文

posted @ 2019-04-22 09:52 问题不大1 阅读(4698) 评论(1) 推荐(0) 编辑

hive参数配置及任务优化

摘要：一、hive常用参数 0.常用参数 1.任务名设置 2.输入合并参数设置 3.输出合并参数设置 4.reduce设置 5.mapjoin参数设置 6.map端聚合 7.mapreduce的物理内存、虚拟内存 8.动态分区 9. shuffle端内存溢出oom (BoundedByteArrayOut 阅读全文

posted @ 2019-04-22 08:52 问题不大1 阅读(4684) 评论(0) 推荐(0) 编辑

问题不大

公告