06 2022 档案
摘要:Hadoop IPC 技术架构 原理
阅读全文
摘要:1,原理对比 MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Executor
阅读全文
摘要:使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema.
然后通过模式,从rdd中生成dataframe。
阅读全文
摘要:exitCode=-1073741515 saveAsTextFile
阅读全文
摘要:一,累加器特征 1,PySpark累加器是一个共享变量,与RDD和DataFrame一起使用,以执行与Map reduce计数器类似的求和和和计数器操作。 2,只有分布在各个节点上的task任务才能更新累加器的数值,并且只有driver 端可以读取数值。 二,累加器的创建和使用 sparkConte
阅读全文
摘要:一,先说java IO 1,线程阻塞:当线程调用write()或read()时,线程会被阻塞,直到有一些数据可用于读取或数据被完全写入。 2,面向流: 我们需要从流中读取一个或多个字节。它使用流来在数据源/槽和java程序之间传输数据。从源进入 Java对象成为“input” , 从Java 对象
阅读全文
摘要:为了提高编码过程中的实用性,特意选择了“泰坦尼克号死亡人员名单” 的csv 数据集进行分析。 # coding=utf-8 import pandas as pd import numpy as np import matplotlib.pyplot as plt print("pandas 实例编
阅读全文
摘要:一,RDD 算子: 适用于 rdd 或 (k, v)类型 1,Transformation 类型算子 map : 转化每个元素,返回 1:1比例元素输出 filter(func) : 过滤元素 flapmap :同样转化元素, 1:N输出元素 mappation: 对分区进行map, 效率高,但数据
阅读全文
摘要:一,java 代理的作用 1,RPC 远程调用中,客户端的代理对象被序列化 流,通过https 协议发送到Server端,然后反序列化为”代理对象“ 。实现远程调用。? 在客户端Client, RPC 给接口生成一个代理类,运行过程中实际绑定的是这个接口生成的代理类。这样在接口方法被调用的时候,它实
阅读全文
摘要:一,numpy 的功能 支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 二,代码练习 # coding=utf-8 import numpy as np import matplotlib as mpl # Ndarray set of same type elements
阅读全文
摘要:一,pandas功能 1,基于numpy , 分析结构化数据。 二,常用基础知识编码练习 包括数据类型,数据操作,比如索引,分片 ,分组聚合 ,排序 过滤等等数分常见操作代码 # coding=utf-8 import pandas as pd import numpy as np import s
阅读全文