大鹏的鸿鹄之志

2021年3月1日

摘要：技术说明：http://lxw1234.com/archives/2016/04/632.htm hive表是orc 存储本文优化方法：使用 bloom filter 和二级动态分区实操： 1，建表： CREATE TABLE test( mall_id bigint COMMENT '店铺id 阅读全文

posted @ 2021-03-01 20:55 大鹏的鸿鹄之志阅读(1230) 评论(0) 推荐(0) 编辑

2021年2月19日

Presto常见问题优化

摘要：转载：http://www.voidcn.com/article/p-kmaltben-bse.html presto参数优化查询速度慢, 如何优化? 解决方法1: 避免单节点处理虽然Presto是分布式查询引擎, 但是一些操作是必须在单节点中处理的. 例如: count(distinct x) 阅读全文

posted @ 2021-02-19 17:58 大鹏的鸿鹄之志阅读(2126) 评论(0) 推荐(1) 编辑

2021年2月9日

Presto原理解析

摘要：原理解析： https://blog.csdn.net/zxh19800626/article/details/84670929 https://blog.csdn.net/u011596455/article/details/86558218 简介： https://www.jianshu.com 阅读全文

posted @ 2021-02-09 20:03 大鹏的鸿鹄之志阅读(455) 评论(0) 推荐(0) 编辑

2021年1月31日

几种排序说明

摘要：转载：https://programskills.blog.csdn.net/article/details/112625508 阅读全文

posted @ 2021-01-31 21:27 大鹏的鸿鹄之志阅读(42) 评论(0) 推荐(0) 编辑

2021年1月24日

hive元数据

摘要：在使用 Alter语句修改 Hive 分区表结构的时候，会出现已存在的分区结构没有被修改的情况。比如说，新增了一个字段，但是向原有分区插入新增字段数据之后，查询却发现数据为 NULL，或者修改了一个字段类型，查询原有分区的时候发现数据没有被正确识别。之所以会出现这种情况，是因为 Hive对应分区表阅读全文

posted @ 2021-01-24 18:00 大鹏的鸿鹄之志阅读(678) 评论(0) 推荐(0) 编辑

2021年1月17日

Presto的基本概念

摘要： Presto是一款Facebook开源的MPP架构的OLAP查询引擎，可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto，研究它对理解SQL Parser、常见算子的实现（如SQL中table scan,join,aggregation）、资源管理与调度、查询优阅读全文

posted @ 2021-01-17 22:37 大鹏的鸿鹄之志阅读(2604) 评论(0) 推荐(2) 编辑

2021年1月15日

clickhouse函数大全

摘要：数组的用法：https://www.jianshu.com/p/e57c4e5f607b 查询系统函数：select * from system.functions; ┌─name────────────────────────────────────────┬─is_aggregate─┬─cas 阅读全文

posted @ 2021-01-15 17:26 大鹏的鸿鹄之志阅读(967) 评论(0) 推荐(0) 编辑

2020年12月15日

Hive Map结构

摘要：平时很少用到map类型，这次用到了记录一下。适用场景：行转列，且mid的key个数可能不一样的情况。举个栗子： 1 select 2 mid, 3 tags['电影'] as movie, 4 tags['音乐'] as music 5 from( 6 select 7 mid, 8 str_t 阅读全文

posted @ 2020-12-15 20:57 大鹏的鸿鹄之志阅读(1393) 评论(0) 推荐(0) 编辑

2020年12月1日

clickhouse概述

摘要： ClickHouse存储层 ClickHouse从OLAP场景需求出发，定制开发了一套全新的高效列式存储引擎，并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础。列式阅读全文

posted @ 2020-12-01 20:47 大鹏的鸿鹄之志阅读(1074) 评论(0) 推荐(0) 编辑

2020年11月25日

Hive小文件合并

摘要： Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个阅读全文

posted @ 2020-11-25 20:23 大鹏的鸿鹄之志阅读(1131) 评论(0) 推荐(0) 编辑