上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
  2021年3月1日
摘要: 技术说明:http://lxw1234.com/archives/2016/04/632.htm hive表是orc 存储 本文优化方法:使用 bloom filter 和二级动态分区 实操: 1,建表: CREATE TABLE test( mall_id bigint COMMENT '店铺id 阅读全文
posted @ 2021-03-01 20:55 大鹏的鸿鹄之志 阅读(1230) 评论(0) 推荐(0) 编辑
  2021年2月19日
摘要: 转载:http://www.voidcn.com/article/p-kmaltben-bse.html presto参数优化 查询速度慢, 如何优化? 解决方法1: 避免单节点处理 虽然Presto是分布式查询引擎, 但是一些操作是必须在单节点中处理的. 例如: count(distinct x) 阅读全文
posted @ 2021-02-19 17:58 大鹏的鸿鹄之志 阅读(2126) 评论(0) 推荐(1) 编辑
  2021年2月9日
摘要: 原理解析: https://blog.csdn.net/zxh19800626/article/details/84670929 https://blog.csdn.net/u011596455/article/details/86558218 简介: https://www.jianshu.com 阅读全文
posted @ 2021-02-09 20:03 大鹏的鸿鹄之志 阅读(455) 评论(0) 推荐(0) 编辑
  2021年1月31日
摘要: 转载:https://programskills.blog.csdn.net/article/details/112625508 阅读全文
posted @ 2021-01-31 21:27 大鹏的鸿鹄之志 阅读(42) 评论(0) 推荐(0) 编辑
  2021年1月24日
摘要: 在使用 Alter语句修改 Hive 分区表结构的时候,会出现已存在的分区结构没有被修改的情况。比如说,新增了一个字段,但是向原有分区插入新增字段数据之后,查询却发现数据为 NULL,或者修改了一个字段类型,查询原有分区的时候发现数据没有被正确识别。 之所以会出现这种情况,是因为 Hive对应分区表 阅读全文
posted @ 2021-01-24 18:00 大鹏的鸿鹄之志 阅读(678) 评论(0) 推荐(0) 编辑
  2021年1月17日
摘要: Presto是一款Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto,研究它对理解SQL Parser、常见算子的实现(如SQL中table scan,join,aggregation)、资源管理与调度、查询优 阅读全文
posted @ 2021-01-17 22:37 大鹏的鸿鹄之志 阅读(2604) 评论(0) 推荐(2) 编辑
  2021年1月15日
摘要: 数组的用法:https://www.jianshu.com/p/e57c4e5f607b 查询系统函数:select * from system.functions; ┌─name────────────────────────────────────────┬─is_aggregate─┬─cas 阅读全文
posted @ 2021-01-15 17:26 大鹏的鸿鹄之志 阅读(967) 评论(0) 推荐(0) 编辑
  2020年12月15日
摘要: 平时很少用到map类型,这次用到了记录一下。 适用场景:行转列,且mid的key个数可能不一样的情况。 举个栗子: 1 select 2 mid, 3 tags['电影'] as movie, 4 tags['音乐'] as music 5 from( 6 select 7 mid, 8 str_t 阅读全文
posted @ 2020-12-15 20:57 大鹏的鸿鹄之志 阅读(1393) 评论(0) 推荐(0) 编辑
  2020年12月1日
摘要: ClickHouse存储层 ClickHouse从OLAP场景需求出发,定制开发了一套全新的高效列式存储引擎,并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础。 列式 阅读全文
posted @ 2020-12-01 20:47 大鹏的鸿鹄之志 阅读(1074) 评论(0) 推荐(0) 编辑
  2020年11月25日
摘要: Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 阅读全文
posted @ 2020-11-25 20:23 大鹏的鸿鹄之志 阅读(1131) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页