随笔分类 - 数据分析
numpy,pandas,数据分析
摘要:Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp
阅读全文
摘要:Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同。 我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession
阅读全文
摘要:Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据
阅读全文
摘要:Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions。 Transformations为一些数据转换类函数,actions为一些行动类函数: 转换:转换的返回值是一个新的RDD集合,而不是单个值。调用一个变换方法, 不会有任何求值计算,它只获取
阅读全文
摘要:Numpy 基础操作¶ 以numpy的基本数据例子来学习numpy基本数据处理方法 主要内容有: 创建数组 数组维度转换 数据选区和切片 数组数据计算 随机数 数据合并 数据统计计算 In [1]: import numpy as np 创建一维数组¶ In [2]: data = np.arang
阅读全文
摘要:Spark初步 从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。 README.md文件在Spark的
阅读全文