LEEPINE - 博客园

2022年11月12日

摘要：大数据技术之Hive源码2接上文2.4 HQL生成AST（抽象语法树）2.5 对AST进一步解析接下来的步骤包括：1）将AST转换为QueryBlock进一步转换为OperatorTree；2）对OperatorTree进行逻辑优化（LogicalOptimizer）；3）将OperatorTre 阅读全文

posted @ 2022-11-12 22:11 LEEPINE 阅读(181) 评论(0) 推荐(0) 编辑

Hive3源码总结1

摘要：大数据技术之Hive源码第1章 HQL是如何转换为MR任务的1.1 Hive的核心组成介绍1）用户接口：ClientCLI（command-line interface如开启bin/hive）、JDBC/ODBC(hiveserver2方式，jdbc访问hive，如beeline)、WEBUI（浏览阅读全文

posted @ 2022-11-12 22:09 LEEPINE 阅读(113) 评论(0) 推荐(0) 编辑

2022年11月8日

Hive优化总结

摘要：大数据技术之Hive调优第1章 Explain查看执行计划（重点）1.1 创建测试用表1）建大表、小表和JOIN后表的语句// 创建大表create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank in 阅读全文

posted @ 2022-11-08 23:38 LEEPINE 阅读(428) 评论(0) 推荐(1) 编辑

2022年10月30日

Spark SQL优化总结2

摘要：接上文内存优化用以下三张表，做性能测试RDD1.1.1cacheimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}object MemoryTuning { def main(args: A 阅读全文

posted @ 2022-10-30 23:00 LEEPINE 阅读(252) 评论(0) 推荐(0) 编辑

Spark SQL优化总结1

摘要：内存优化用以下三张表，做性能测试RDD1.1.1cacheimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}object MemoryTuning { def main(args: Arra 阅读全文

posted @ 2022-10-30 22:57 LEEPINE 阅读(555) 评论(0) 推荐(0) 编辑

Hive on Spark优化总结

摘要：第1章集群环境概述 1.1 集群配置概述本课程所用集群由5台节点构成，其中2台为master节点，用于部署HDFS的NameNode，Yarn的ResourceManager等角色，另外3台为worker节点，用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Mast 阅读全文

posted @ 2022-10-30 22:22 LEEPINE 阅读(449) 评论(0) 推荐(0) 编辑

Flink优化总结

摘要：资源配置调优 Flink性能调优的第一步，就是为任务分配合适的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。提交方式主要是yarn-per-job，资源的分配在使用脚本提交Flink任务时进行指定。标准的Flink任阅读全文

posted @ 2022-10-30 22:09 LEEPINE 阅读(1909) 评论(0) 推荐(1) 编辑

Spark优化总结

摘要：第1章 Explain查看执行计划 Spark 3.0 大版本发布，Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core，成为新一代的引擎内核，所有其他子框架如 Mllib、Streaming 和 Graph，都可以共享 Spark SQL 的性能优化，都能从阅读全文

posted @ 2022-10-30 22:08 LEEPINE 阅读(1356) 评论(0) 推荐(1) 编辑

公告