摘要: 大数据技术之Hive源码2接上文2.4 HQL生成AST(抽象语法树)2.5 对AST进一步解析 接下来的步骤包括:1)将AST转换为QueryBlock进一步转换为OperatorTree;2)对OperatorTree进行逻辑优化(LogicalOptimizer);3)将OperatorTre 阅读全文
posted @ 2022-11-12 22:11 LEEPINE 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Hive源码第1章 HQL是如何转换为MR任务的1.1 Hive的核心组成介绍1)用户接口:ClientCLI(command-line interface如开启bin/hive)、JDBC/ODBC(hiveserver2方式,jdbc访问hive,如beeline)、WEBUI(浏览 阅读全文
posted @ 2022-11-12 22:09 LEEPINE 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Hive调优第1章 Explain查看执行计划(重点)1.1 创建测试用表1)建大表、小表和JOIN后表的语句// 创建大表create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank in 阅读全文
posted @ 2022-11-08 23:38 LEEPINE 阅读(428) 评论(0) 推荐(1) 编辑
摘要: 接上文内存优化用以下三张表,做性能测试RDD1.1.1cacheimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}object MemoryTuning { def main(args: A 阅读全文
posted @ 2022-10-30 23:00 LEEPINE 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 内存优化用以下三张表,做性能测试RDD1.1.1cacheimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}object MemoryTuning { def main(args: Arra 阅读全文
posted @ 2022-10-30 22:57 LEEPINE 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成,其中2台为master节点,用于部署HDFS的NameNode,Yarn的ResourceManager等角色,另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Mast 阅读全文
posted @ 2022-10-30 22:22 LEEPINE 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 资源配置调优 Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 提交方式主要是yarn-per-job,资源的分配在使用脚本提交Flink任务时进行指定。 标准的Flink任 阅读全文
posted @ 2022-10-30 22:09 LEEPINE 阅读(1909) 评论(0) 推荐(1) 编辑
摘要: 第1章 Explain查看执行计划 Spark 3.0 大版本发布,Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core,成为新一代的引擎内核,所有其他子框架如 Mllib、Streaming 和 Graph,都可以共享 Spark SQL 的性能优化,都能从 阅读全文
posted @ 2022-10-30 22:08 LEEPINE 阅读(1356) 评论(0) 推荐(1) 编辑