随笔分类 -  数据分析

numpy,pandas,数据分析
摘要:Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp 阅读全文
posted @ 2020-07-06 17:26 MyStitch 阅读(1245) 评论(0) 推荐(0) 编辑
摘要:Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同。 我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession 阅读全文
posted @ 2020-07-06 16:50 MyStitch 阅读(1740) 评论(0) 推荐(1) 编辑
摘要:Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 阅读全文
posted @ 2020-07-06 15:35 MyStitch 阅读(3823) 评论(0) 推荐(0) 编辑
摘要:Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions。 Transformations为一些数据转换类函数,actions为一些行动类函数: 转换:转换的返回值是一个新的RDD集合,而不是单个值。调用一个变换方法, 不会有任何求值计算,它只获取 阅读全文
posted @ 2019-04-04 17:49 MyStitch 阅读(2754) 评论(0) 推荐(0) 编辑
摘要:Numpy 基础操作¶ 以numpy的基本数据例子来学习numpy基本数据处理方法 主要内容有: 创建数组 数组维度转换 数据选区和切片 数组数据计算 随机数 数据合并 数据统计计算 In [1]: import numpy as np 创建一维数组¶ In [2]: data = np.arang 阅读全文
posted @ 2019-04-02 11:24 MyStitch 阅读(951) 评论(0) 推荐(0) 编辑
摘要:Spark初步 从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。 README.md文件在Spark的 阅读全文
posted @ 2019-03-29 17:45 MyStitch 阅读(723) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示