摘要: Spark2.X的内存管理模型如下图所示: Spark中的内存使用大致包括两种类型:执行和存储。执行内存是指用于用于shuffle、join、排序、聚合等计算的内存,而存储内存是指用于在集群中持久化和广播内部数据的内存。在Spark中,执行内存和存储内存共享... 阅读全文
posted @ 2019-03-08 17:31 大数据技术与数仓 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 转自:https://www.iteblog.com/archives/1672.html 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计... 阅读全文
posted @ 2019-03-08 15:48 大数据技术与数仓 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.系统资源使用 核心调优参数如下: (1)num-executors :该参数一定会被设置, Yarn 会按照Driver 的申请最终为当前的Application 生产指定个数的Executors。实际生产环境下分配80 个左右的Exe... 阅读全文
posted @ 2019-03-08 12:12 大数据技术与数仓 阅读(167) 评论(0) 推荐(0) 编辑
摘要: Impala性能调优最佳实践概览 1选择合适的文件格式 通常对于大数据集而言(每个分区或者表的大小为几个G或者更大),推荐使用Parquet文件格式。因为它按列存储,单词IO可以请求更多的数据,另外它支持更好的压缩算法对二进制文件进行压缩。 对于小表而言(每个... 阅读全文
posted @ 2019-03-04 17:18 大数据技术与数仓 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 分析函数又称为开窗函数,是一种特殊的内置函数。分析函数不会仅限于对每个group by的分组产生一个结果,它操作的是一个窗口(window),输入的行是排序和分组的,可以通过over()语句使用灵活的条件。impala的分析函数是从impala2.0.0开始添... 阅读全文
posted @ 2019-03-03 23:19 大数据技术与数仓 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: 目录 一、概述 1.1简介 1.2优势 1.3主要特点 二、Impala架构 2.1Impala Daemon 2.2Impala Statestore 2.3Impala Catalog Service 三、Impala查询的执行过程 3.1Impala查询... 阅读全文
posted @ 2019-03-03 18:10 大数据技术与数仓 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 当数据集比较大时,可能需要通过采集一部分数据集进行分析,称之为采样。在HQL中支持三种方式的采样:随机采样(random sampling)、分桶表采样(bucket table sampling)以及块采样(block sampling)。 1.随机采样 随... 阅读全文
posted @ 2019-03-02 14:37 大数据技术与数仓 阅读(947) 评论(0) 推荐(0) 编辑
摘要: 1.基本语法 Function (arg1,..., argn) OVER ([PARTITION BY ] [ORDER BY ][]) Function (arg1,..., argn) 可以是下面的四类函数: (1)Aggregat... 阅读全文
posted @ 2019-03-01 23:00 大数据技术与数仓 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 目录 1.查询性能的实用工具 1.1EXPLAIN语句 1.1.1EXPLAIN语法 1.1.2查询计划 1.1.3例子 1.2 ANALYZE语句 1.2.1 ANALYZE语法 1.2.2例子 1.2.3查看统计信息 1.3日志 2.表设计调优 2.1分区... 阅读全文
posted @ 2019-02-28 17:32 大数据技术与数仓 阅读(957) 评论(0) 推荐(1) 编辑
摘要: 一、INSERT OVERWRITE INSERT支持将数据写入文件,通常在使用SELECT语句查询数据时将查询的数据写入本地或者HDFS目录。但是,仅仅支持OVERWRITE关键字,即只能使用覆盖的方式写入数据,默认情况下,使用Ctrl+A作为列分隔符,可以... 阅读全文
posted @ 2019-02-27 22:29 大数据技术与数仓 阅读(453) 评论(0) 推荐(0) 编辑