摘要: SQL 阅读全文
posted @ 2022-06-30 01:58 gaussen126 阅读(2710) 评论(0) 推荐(0) 编辑
摘要: 设计模式 阅读全文
posted @ 2022-06-29 19:31 gaussen126 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 1,原理对比 MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Executor 阅读全文
posted @ 2022-06-22 13:03 gaussen126 阅读(225) 评论(0) 推荐(0) 编辑
摘要: hive 调优 阅读全文
posted @ 2022-06-19 11:08 gaussen126 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 数仓项目 架构实践 阅读全文
posted @ 2022-06-17 13:04 gaussen126 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema. 然后通过模式,从rdd中生成dataframe。 阅读全文
posted @ 2022-06-17 12:26 gaussen126 阅读(116) 评论(0) 推荐(0) 编辑
摘要: exitCode=-1073741515 saveAsTextFile 阅读全文
posted @ 2022-06-14 19:19 gaussen126 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 一,累加器特征 1,PySpark累加器是一个共享变量,与RDD和DataFrame一起使用,以执行与Map reduce计数器类似的求和和和计数器操作。 2,只有分布在各个节点上的task任务才能更新累加器的数值,并且只有driver 端可以读取数值。 二,累加器的创建和使用 sparkConte 阅读全文
posted @ 2022-06-14 11:11 gaussen126 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 一,先说java IO 1,线程阻塞:当线程调用write()或read()时,线程会被阻塞,直到有一些数据可用于读取或数据被完全写入。 2,面向流: 我们需要从流中读取一个或多个字节。它使用流来在数据源/槽和java程序之间传输数据。从源进入 Java对象成为“input” , 从Java 对象 阅读全文
posted @ 2022-06-12 01:03 gaussen126 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 一,pandas功能 1,基于numpy , 分析结构化数据。 二,常用基础知识编码练习 包括数据类型,数据操作,比如索引,分片 ,分组聚合 ,排序 过滤等等数分常见操作代码 # coding=utf-8 import pandas as pd import numpy as np import s 阅读全文
posted @ 2022-06-09 19:43 gaussen126 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 集合框架 Map Collection List Set Queue Hashmap Treemap 阅读全文
posted @ 2016-12-16 02:21 gaussen126 阅读(1235) 评论(0) 推荐(0) 编辑