随笔分类 - python
摘要:一,累加器特征 1,PySpark累加器是一个共享变量,与RDD和DataFrame一起使用,以执行与Map reduce计数器类似的求和和和计数器操作。 2,只有分布在各个节点上的task任务才能更新累加器的数值,并且只有driver 端可以读取数值。 二,累加器的创建和使用 sparkConte
阅读全文
摘要:为了提高编码过程中的实用性,特意选择了“泰坦尼克号死亡人员名单” 的csv 数据集进行分析。 # coding=utf-8 import pandas as pd import numpy as np import matplotlib.pyplot as plt print("pandas 实例编
阅读全文
摘要:一,numpy 的功能 支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 二,代码练习 # coding=utf-8 import numpy as np import matplotlib as mpl # Ndarray set of same type elements
阅读全文
摘要:一,pandas功能 1,基于numpy , 分析结构化数据。 二,常用基础知识编码练习 包括数据类型,数据操作,比如索引,分片 ,分组聚合 ,排序 过滤等等数分常见操作代码 # coding=utf-8 import pandas as pd import numpy as np import s
阅读全文