Spark - 随笔分类 - MyStitch

Spark-submit常用任务命令参数和说明

摘要：Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp 阅读全文

posted @ 2020-07-06 17:26 MyStitch 阅读(1365) 评论(0) 推荐(0)

Spark TempView和GlobalTempView的区别

摘要：Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用，两者的区别和应用场景有什么不同。我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession 阅读全文

posted @ 2020-07-06 16:50 MyStitch 阅读(1808) 评论(0) 推荐(1)

Spark 两种方法计算分组取Top N

摘要：Spark 分组取Top N运算大数据处理中，对数据分组后，取TopN是非常常见的运算。下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据阅读全文

posted @ 2020-07-06 15:35 MyStitch 阅读(3956) 评论(0) 推荐(0)

Docker中提交任务到Spark集群

摘要：1. 背景描述和需求数据分析程序部署在Docker中，有一些分析计算需要使用Spark计算，需要把任务提交到Spark集群计算。接收程序部署在Docker中，主机不在Hadoop集群上。与Spark集群网络互通。需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker 阅读全文

posted @ 2020-07-03 18:08 MyStitch 阅读(2577) 评论(0) 推荐(0)

Spark 环境问题记录和解决方法

摘要：Spark 版本配套表名称版本说明 Spark spark-2.3.0-bin-hadoop2.7 Spark mongo-java-driver-3.5.0.jar 3.5 Mongo驱动 mongo-spark-connector_2.11-2.3.1.jar 2.3 Mongo conn 阅读全文

posted @ 2020-07-03 17:46 MyStitch 阅读(3684) 评论(0) 推荐(0)

HDFS 常用操作命令

摘要：HDFS 文件操作命令注，其实常用命令不用网上搜，和linux下的命令很类似，触类旁通，直接在linux 上 hadoop fs 看一下就行了，不需要刻意去记我把 linux 上的 help 列举下，方便直接看吧，hdfs dfs 与 hadoop fs 效果一样常用的就是 hdfs dfs 阅读全文

posted @ 2020-07-03 17:20 MyStitch 阅读(684) 评论(0) 推荐(0)

pandas、spark计算相关性系数速度对比

摘要：pandas、spark计算相关性系数速度对比相关性计算有三种算法：pearson、spearman，kenall。在pandas库中，对一个Dataframe，可以直接计算这三个算法的相关系数correlation，方法为：data.corr() 底层是依赖scipy库的算法。为了提升计算速阅读全文

posted @ 2020-07-02 15:55 MyStitch 阅读(2616) 评论(0) 推荐(0)

Spark 基本函数学习笔记一

摘要：Spark 基本函数学习笔记一¶ spark的函数主要分两类，Transformations和Actions。 Transformations为一些数据转换类函数，actions为一些行动类函数：转换：转换的返回值是一个新的RDD集合，而不是单个值。调用一个变换方法，不会有任何求值计算，它只获取阅读全文

posted @ 2019-04-04 17:49 MyStitch 阅读(2788) 评论(0) 推荐(0)

Spark初步从wordcount开始

摘要：Spark初步从wordcount开始 spark中自带的example，有一个wordcount例子，我们逐步分析wordcount代码，开始我们的spark之旅。准备工作把README.md文件复制到当前的文件目录，启动jupyter，编写我们的代码。 README.md文件在Spark的阅读全文

posted @ 2019-03-29 17:45 MyStitch 阅读(743) 评论(0) 推荐(0)

Stitch

随笔分类 - Spark

公告