Hive优化
摘要:转载:https://www.cnblogs.com/sx66/p/12039571.html 常见的优化器 如果你想查看hive的优化器,可以从github上面拉一份hive的源码,在org.apache.hadoop.hive.ql.optimizer目录下可以看到hive里面有哪些逻辑优化器。
阅读全文
posted @
2022-03-10 11:31
大鹏的鸿鹄之志
阅读(330)
推荐(0) 编辑
桶表基础概念
摘要:转载:https://blog.csdn.net/u010003835/article/details/80911215 https://blog.csdn.net/Samaritan_H/article/details/79090103 桶(SMB)物理上,每个桶就是表(或分区)目录里的一个文件。
阅读全文
posted @
2021-07-22 21:48
大鹏的鸿鹄之志
阅读(171)
推荐(0) 编辑
bug成长记
摘要:1 本意打算当scene = 5 直接取5 2 3 错误写法:因为写在下面始终走不了下面那个本意走的case SELECT CASE WHEN scene<8 AND scene <> 4 THEN scene+1 WHEN scene = 5 AND type IN (8,12) THEN 5 E
阅读全文
posted @
2021-06-10 14:38
大鹏的鸿鹄之志
阅读(40)
推荐(0) 编辑
取排名前50%的数据
摘要:1 SELECT 2 goods_id, 3 mall_id, 4 gmv 5 FROM( 6 SELECT 7 goods_id, 8 mall_id, 9 gmv, 10 dense_rank() over (partition by mall_id order by gmv desc ) as
阅读全文
posted @
2021-05-20 21:31
大鹏的鸿鹄之志
阅读(144)
推荐(0) 编辑
七日留存的计算方法
摘要:转载:https://www.jianshu.com/p/cf8cf682dcba 转载:https://blog.csdn.net/caojian107/article/details/109543513?utm_medium=distribute.pc_aggpage_search_result
阅读全文
posted @
2021-04-23 11:48
大鹏的鸿鹄之志
阅读(406)
推荐(0) 编辑
行转列且有序
摘要:1 select 2 user_id, 3 arr[0], 4 arr[1], 5 arr[2] 6 from( 7 select 8 user_id, 9 sort_array(collect_list(order_id)) as arr 10 from( 11 SELECT 12 t3.*, 1
阅读全文
posted @
2021-04-09 20:17
大鹏的鸿鹄之志
阅读(68)
推荐(0) 编辑
连续登陆天数+最大登陆天数
摘要:转载:https://www.cnblogs.com/jiaxinwei/p/13936273.html https://blog.csdn.net/godlovedaniel/article/details/106463180?utm_medium=distribute.pc_relevant.n
阅读全文
posted @
2021-03-16 10:37
大鹏的鸿鹄之志
阅读(1199)
推荐(0) 编辑
MapReduce
摘要:转载:https://blog.csdn.net/WYpersist/article/details/80102778 MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster
阅读全文
posted @
2019-11-21 23:45
大鹏的鸿鹄之志
阅读(679)
推荐(0) 编辑
Kafka
摘要:转载:https://blog.csdn.net/henlf/article/details/82085685 https://blog.csdn.net/uniquecapo/article/details/79292965 https://blog.csdn.net/yuan_xw/articl
阅读全文
posted @
2019-11-20 23:49
大鹏的鸿鹄之志
阅读(137)
推荐(0) 编辑
Sqoop
摘要:sqoop的功能是什么?有什么特点? Sqoop(SQL-to-Hadoop)是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错
阅读全文
posted @
2019-11-13 20:09
大鹏的鸿鹄之志
阅读(207)
推荐(0) 编辑
Hadoop
摘要:一.hadoop是什么 Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop
阅读全文
posted @
2019-11-09 20:48
大鹏的鸿鹄之志
阅读(2074)
推荐(0) 编辑
SQL学习笔记
摘要:每个用户最喜欢的节目 SELECT USER, programid FROM( SELECT USER, programid, row_number() over(partition BY USER ORDER BY sum(playtime)) r FROM test GROUP BY USER,
阅读全文
posted @
2019-11-08 22:51
大鹏的鸿鹄之志
编辑
hive-sql学习笔记之开窗函数
摘要:Rank() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算 实验数据 cookieid creattime pv cookie1, 2017-12-10, 1cookie1, 2017-12-11, 5cookie1, 2
阅读全文
posted @
2019-10-21 13:49
大鹏的鸿鹄之志
阅读(724)
推荐(0) 编辑