gaussen126 - 博客园

2022年6月30日

复杂SQL语句及其优化

摘要： SQL 阅读全文

posted @ 2022-06-30 01:58 gaussen126 阅读(2710) 评论(0) 推荐(0) 编辑

2022年6月29日

常见设计模式说明和代码实践

摘要：设计模式阅读全文

posted @ 2022-06-29 19:31 gaussen126 阅读(66) 评论(0) 推荐(0) 编辑

2022年6月22日

Hadoop批处理方案和 MPP架构方案作为数据仓库的区别

摘要： 1，原理对比 MPP方案中的数据通常在节点之间拆分（分片），每个节点仅处理其本地数据。而且，每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展，支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中，单一的 Executor 阅读全文

posted @ 2022-06-22 13:03 gaussen126 阅读(225) 评论(0) 推荐(0) 编辑

2022年6月19日

HIVE 调优思路和实践

摘要： hive 调优阅读全文

posted @ 2022-06-19 11:08 gaussen126 阅读(88) 评论(0) 推荐(0) 编辑

2022年6月17日

数仓项目的架构设计实施的标准输出模板

摘要：数仓项目架构实践阅读全文

posted @ 2022-06-17 13:04 gaussen126 阅读(238) 评论(0) 推荐(0) 编辑

pyspark 中的rdd api 编码练习

摘要：使用pyspark 的rdd api 进行了数据文件的处理，包括构建RDD，统计分析RDD ，从文件中读取数据RDD，从文件中构建 rdd的模式shema. 然后通过模式，从rdd中生成dataframe。阅读全文

posted @ 2022-06-17 12:26 gaussen126 阅读(116) 评论(0) 推荐(0) 编辑

2022年6月14日

一个因为windows系统缺失文件而导致的pyspark的BUG

摘要： exitCode=-1073741515 saveAsTextFile 阅读全文

posted @ 2022-06-14 19:19 gaussen126 阅读(69) 评论(0) 推荐(0) 编辑

使用pyspark 建立spark 的累加器

摘要：一，累加器特征 1，PySpark累加器是一个共享变量，与RDD和DataFrame一起使用，以执行与Map reduce计数器类似的求和和和计数器操作。 2，只有分布在各个节点上的task任务才能更新累加器的数值，并且只有driver 端可以读取数值。二，累加器的创建和使用 sparkConte 阅读全文

posted @ 2022-06-14 11:11 gaussen126 阅读(370) 评论(0) 推荐(0) 编辑

2022年6月12日

java NIO原理和代码实践

摘要：一，先说java IO 1，线程阻塞：当线程调用write()或read()时，线程会被阻塞，直到有一些数据可用于读取或数据被完全写入。 2，面向流：我们需要从流中读取一个或多个字节。它使用流来在数据源/槽和java程序之间传输数据。从源进入 Java对象成为“input” ，从Java 对象阅读全文

posted @ 2022-06-12 01:03 gaussen126 阅读(118) 评论(0) 推荐(0) 编辑

2022年6月9日

pands 编码知识

摘要：一，pandas功能 1，基于numpy , 分析结构化数据。二，常用基础知识编码练习包括数据类型，数据操作，比如索引，分片，分组聚合，排序过滤等等数分常见操作代码 # coding=utf-8 import pandas as pd import numpy as np import s 阅读全文

posted @ 2022-06-09 19:43 gaussen126 阅读(81) 评论(0) 推荐(0) 编辑

2016年12月16日

JAVA集合框架特征介绍

摘要：集合框架 Map Collection List Set Queue Hashmap Treemap 阅读全文

posted @ 2016-12-16 02:21 gaussen126 阅读(1235) 评论(0) 推荐(0) 编辑

SAM's DATA RIVER

山姆大叔的 DATA BLOG

公告