2022 年 8月 26 日随笔档案 - Kotlin

2022年8月26日

摘要： sparkcore 优化数据倾斜处理 1.etl处理 2.并行度 3.过滤倾斜key(需要null，聚合需求(随机分区预聚合，最终hash散列聚合) 拆分(单独拿出来处理，最终union起来)) 4.reduce join 转mapjoin 5.两阶段聚合 6.无前缀聚合(随机前缀:大表加随机前缀阅读全文

posted @ 2022-08-26 19:10 Kotlin 阅读(68) 评论(0) 推荐(0) 编辑

hive 参数优化

摘要：最近为了调试hive试了很多hive参数，对于hive任务优化，减少使用内存有一些自己的见解，在此做一个记录。一：mapreduce的基本流程及阶段可进行的优化操作（其实有很多不用设置有默认的设置，此处做面试，参考设置在下一节）附上网上的一张老图（虽然老但是很具有代表性，哈哈哈）上面的图知道阅读全文

posted @ 2022-08-26 18:58 Kotlin 阅读(423) 评论(0) 推荐(0) 编辑

sparksql 核心概念

摘要： Spark-sql概念补充基本概念 SparkSQL是基于RDD的，可以通过Schema信息来访问其中某个字段 RDD处理的不是结构化数据，所以不能进行类似HIve逻辑优化器的优化操作（条件传播） SparkSQL默认读取的类型都是 DataFrame Catalyst优化器 1.解析SQL，并解阅读全文

posted @ 2022-08-26 18:45 Kotlin 阅读(109) 评论(0) 推荐(0) 编辑

sparkcore 核心概念

摘要： Spark-core概念补充 Spark相对于hadoop的优势 1.减少IO(如非必要不落盘) 2.并行度(多线程) 3.中间结果持久化(多次使用) 4.shuffle方案(不排序) 5.内存管理(静态内存，动态内存，内存可配置) 概念 Master节点，协调资源，连接worker节点运行Exxc 阅读全文

posted @ 2022-08-26 17:33 Kotlin 阅读(69) 评论(0) 推荐(0) 编辑

sparkcore 函数大全

摘要：有了上面三篇的函数，平时开发应该问题不大了。这篇的主要目的是把所有的函数都过一遍，深入RDD的函数 RDD函数大全数据准备 val sparkconf = new SparkConf().setAppName("test_Spark_sql").setMaster("local[2]") val 阅读全文

posted @ 2022-08-26 17:14 Kotlin 阅读(59) 评论(0) 推荐(0) 编辑

Kotlin

公告