09 2020 档案
摘要:Spark中行列转换,数据透视(Pivot),宽表和长表的变换
阅读全文
摘要:Python解析sql提取表,提取表名
阅读全文
摘要:通过实现SQL类似的功能,处理收集数据,数据预处理,数据计算汇总等流程,了解相应的数据处理流程和技术手段。
阅读全文
摘要:通过SparkUI来了解Spark执行的情况以及时间和空间的花费
阅读全文
摘要:##Spark内容 1.Spark的内存模型 2.Spark的执行过程 3.SparkSQL的执行过程 本次主要理解和整理执行过程 ###1.简单介绍Spark的执行过程 概念: SparkContext-- Driver-- Executor- DAG Scheduler - TaskSchedu
阅读全文
摘要:SparkSQL执行过程 SparkSQL中的Join类型
阅读全文
摘要:逻辑上的数据结构: 线性表 栈与队列 串 树 图 数据结构: 数据组织方式:逻辑结构 物理结构 逻辑结构: 直接前继 直接后继 数据处理方式: 增删改查遍历 衡量数据结构的复杂度: 空间复杂度和时间复杂度两种 常数级 0(1) 对数级 O(logn)、线性级 O(n)、线性对数级(nlogn)、平方
阅读全文
摘要:Hive的一些常用的高阶开发 内容 1.开窗函数 2.行转列,列转行,多行转一行,一行转多行 3.分组: 增强型group 4.排序 5.关联 本次的内容: 分组 排序 关联 1.分组 GROUP BY GROUP BY WITH rollup GROUP BY WITH cube GROUP BY
阅读全文
摘要:Hive的一些常用的高阶开发,主要涉及Hive的开窗函数,行列转换等
阅读全文