会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
pengh
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
12
下一页
2021年3月1日
Hive查询优化~布隆过滤器使用
摘要: 技术说明:http://lxw1234.com/archives/2016/04/632.htm hive表是orc 存储 本文优化方法:使用 bloom filter 和二级动态分区 实操: 1,建表: CREATE TABLE test( mall_id bigint COMMENT '店铺id
阅读全文
posted @ 2021-03-01 20:55 大鹏的鸿鹄之志
阅读(1230)
评论(0)
推荐(0)
编辑
2021年2月19日
Presto常见问题优化
摘要: 转载:http://www.voidcn.com/article/p-kmaltben-bse.html presto参数优化 查询速度慢, 如何优化? 解决方法1: 避免单节点处理 虽然Presto是分布式查询引擎, 但是一些操作是必须在单节点中处理的. 例如: count(distinct x)
阅读全文
posted @ 2021-02-19 17:58 大鹏的鸿鹄之志
阅读(2126)
评论(0)
推荐(1)
编辑
2021年2月9日
Presto原理解析
摘要: 原理解析: https://blog.csdn.net/zxh19800626/article/details/84670929 https://blog.csdn.net/u011596455/article/details/86558218 简介: https://www.jianshu.com
阅读全文
posted @ 2021-02-09 20:03 大鹏的鸿鹄之志
阅读(455)
评论(0)
推荐(0)
编辑
2021年1月31日
几种排序说明
摘要: 转载:https://programskills.blog.csdn.net/article/details/112625508
阅读全文
posted @ 2021-01-31 21:27 大鹏的鸿鹄之志
阅读(42)
评论(0)
推荐(0)
编辑
2021年1月24日
hive元数据
摘要: 在使用 Alter语句修改 Hive 分区表结构的时候,会出现已存在的分区结构没有被修改的情况。比如说,新增了一个字段,但是向原有分区插入新增字段数据之后,查询却发现数据为 NULL,或者修改了一个字段类型,查询原有分区的时候发现数据没有被正确识别。 之所以会出现这种情况,是因为 Hive对应分区表
阅读全文
posted @ 2021-01-24 18:00 大鹏的鸿鹄之志
阅读(678)
评论(0)
推荐(0)
编辑
2021年1月17日
Presto的基本概念
摘要: Presto是一款Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto,研究它对理解SQL Parser、常见算子的实现(如SQL中table scan,join,aggregation)、资源管理与调度、查询优
阅读全文
posted @ 2021-01-17 22:37 大鹏的鸿鹄之志
阅读(2604)
评论(0)
推荐(2)
编辑
2021年1月15日
clickhouse函数大全
摘要: 数组的用法:https://www.jianshu.com/p/e57c4e5f607b 查询系统函数:select * from system.functions; ┌─name────────────────────────────────────────┬─is_aggregate─┬─cas
阅读全文
posted @ 2021-01-15 17:26 大鹏的鸿鹄之志
阅读(967)
评论(0)
推荐(0)
编辑
2020年12月15日
Hive Map结构
摘要: 平时很少用到map类型,这次用到了记录一下。 适用场景:行转列,且mid的key个数可能不一样的情况。 举个栗子: 1 select 2 mid, 3 tags['电影'] as movie, 4 tags['音乐'] as music 5 from( 6 select 7 mid, 8 str_t
阅读全文
posted @ 2020-12-15 20:57 大鹏的鸿鹄之志
阅读(1393)
评论(0)
推荐(0)
编辑
2020年12月1日
clickhouse概述
摘要: ClickHouse存储层 ClickHouse从OLAP场景需求出发,定制开发了一套全新的高效列式存储引擎,并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础。 列式
阅读全文
posted @ 2020-12-01 20:47 大鹏的鸿鹄之志
阅读(1074)
评论(0)
推荐(0)
编辑
2020年11月25日
Hive小文件合并
摘要: Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个
阅读全文
posted @ 2020-11-25 20:23 大鹏的鸿鹄之志
阅读(1131)
评论(0)
推荐(0)
编辑
上一页
1
···
3
4
5
6
7
8
9
10
11
12
下一页