08 2022 档案

摘要:最近把spark文档里面配置那一页看了一下,在这记录一些可用的配置,免得后续再去查文档地址:https://spark.apache.org/docs/3.0.1/configuration.html Spark文档 运行环境 名称默认值配置解释 spark.executor.extraJavaOp 阅读全文
posted @ 2022-08-31 17:38 Kotlin 阅读(770) 评论(0) 推荐(0) 编辑
摘要:数学函数 函数简介用法 acosh 反双曲余弦值 SELECT acosh(0.5);0.9624236501192069 SELECT acosh(3.5);1.9248473002384139 asinh 反双曲正弦 SELECT asinh(1.45);1.1667043308708802 a 阅读全文
posted @ 2022-08-27 15:42 Kotlin 阅读(3037) 评论(0) 推荐(0) 编辑
摘要:sparkcore 优化 数据倾斜处理 1.etl处理 2.并行度 3.过滤倾斜key(需要null,聚合需求(随机分区预聚合,最终hash散列聚合) 拆分(单独拿出来处理,最终union起来)) 4.reduce join 转mapjoin 5.两阶段聚合 6.无前缀聚合(随机前缀:大表加随机前缀 阅读全文
posted @ 2022-08-26 19:10 Kotlin 阅读(72) 评论(0) 推荐(0) 编辑
摘要:最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈) 上面的图知道 阅读全文
posted @ 2022-08-26 18:58 Kotlin 阅读(490) 评论(0) 推荐(0) 编辑
摘要:Spark-sql概念补充 基本概念 SparkSQL是基于RDD的,可以通过Schema信息来访问其中某个字段 RDD处理的不是结构化数据,所以不能进行类似HIve逻辑优化器的优化操作(条件传播) SparkSQL默认读取的类型都是 DataFrame Catalyst优化器 1.解析SQL,并解 阅读全文
posted @ 2022-08-26 18:45 Kotlin 阅读(115) 评论(0) 推荐(0) 编辑
摘要:Spark-core概念补充 Spark相对于hadoop的优势 1.减少IO(如非必要不落盘) 2.并行度(多线程) 3.中间结果持久化(多次使用) 4.shuffle方案(不排序) 5.内存管理(静态内存,动态内存,内存可配置) 概念 Master节点,协调资源,连接worker节点运行Exxc 阅读全文
posted @ 2022-08-26 17:33 Kotlin 阅读(72) 评论(0) 推荐(0) 编辑
摘要:有了上面三篇的函数,平时开发应该问题不大了。这篇的主要目的是把所有的函数都过一遍,深入RDD的函数 RDD函数大全 数据准备 val sparkconf = new SparkConf().setAppName("test_Spark_sql").setMaster("local[2]") val  阅读全文
posted @ 2022-08-26 17:14 Kotlin 阅读(63) 评论(0) 推荐(0) 编辑
摘要:show functions 查看了所有的方法把所有的方法记录下来,下次免得去翻别人的博客了 数学函数 数学常规函数 函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negativ 阅读全文
posted @ 2022-08-14 16:15 Kotlin 阅读(1864) 评论(0) 推荐(0) 编辑
摘要:hive源码 观后总结 整体流程 1.进入程序,利用Antlr框架定义的预发规则,对HQL完成语法解析,将HQL转换为AST(抽象语法树) 2.遍历AST,抽象出查询的基本构成单元QueryBlock(查询块),可以理解为最小查询执行单元 3.遍历QueryBlock,将它转换为OperatorTr 阅读全文
posted @ 2022-08-11 16:03 Kotlin 阅读(271) 评论(0) 推荐(0) 编辑
摘要:hive源码(七)物理执行计划 提交执行 上面所有的方法执行完成就退出了,往后继续执行org.apache.hadoop.hive.ql.Driver runInternal 方法里面有一个 execute()这个方法就是把物理执行计划提交执行的入口 execute()方法 private void 阅读全文
posted @ 2022-08-11 10:33 Kotlin 阅读(250) 评论(0) 推荐(0) 编辑
摘要:OperatorTree转换为物理执行计划,物理执行计划优化 代码入口 TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx); compiler.init(queryState, console, db); //代码入 阅读全文
posted @ 2022-08-09 22:39 Kotlin 阅读(272) 评论(0) 推荐(0) 编辑
摘要:OperatorTree优化(逻辑执行计划优化) 优化入口 Optimizer optm = new Optimizer(); optm.setPctx(pCtx); optm.initialize(conf); //优化器都会执行实现这个方法,通过这调用执行优化过程 //类 org.apache. 阅读全文
posted @ 2022-08-09 08:48 Kotlin 阅读(454) 评论(0) 推荐(0) 编辑
摘要:最近使用云服务器的时候,总是需要安装环境,在此记录一些常用的命令 常用命令 查看系统版本:getconf LONG_BIT断开连接:vim /etc/ssh/sshd_configClientAliveInterval 60ClientAliveCountMax 600systemctl resta 阅读全文
posted @ 2022-08-03 22:15 Kotlin 阅读(111) 评论(0) 推荐(0) 编辑

Live2D
点击右上角即可分享
微信分享提示
西雅图
13:14发布
西雅图
13:14发布
4°
东风
3级
空气质量
相对湿度
92%
今天
多云
3°/15°
周四
4°/15°
周五
4°/14°