摘要: 报错:java.lang.NoSuchMethodError: com.winner.ipva.reid.calculate.ReidCollectionCustomerGroupDistributeArriveDay$.calculate(Lorg/apache/spark/sql/SQLContext;Lorg/apache/spark/sql/hive/HiveContext;Ljava/l... 阅读全文
posted @ 2020-03-02 00:18 郭小白 阅读(1290) 评论(0) 推荐(0) 编辑
摘要: 上传: #!/bin/sh set -x set -e local_rootPath=/hadoop/datadir/windeploy/temp host="192.168.12.2" # 需要上传的ftp地址 port="21" # 端口 user="ftpuser" # ftp登陆的用户名 p 阅读全文
posted @ 2020-02-21 00:27 郭小白 阅读(2582) 评论(0) 推荐(0) 编辑
摘要: 问题:spark操作HBase的时候报错Result为序列化问题 报错: Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0.0 in stage 1 阅读全文
posted @ 2020-02-07 23:57 郭小白 阅读(977) 评论(0) 推荐(1) 编辑
摘要: Spark写HBase 要通过Spark向 HBase 写入数据,我们需要用到PairRDDFunctions.saveAsHadoopDataset的方式。 package cn.com.win import org.apache.hadoop.hbase.HBaseConfiguration i 阅读全文
posted @ 2020-02-07 23:50 郭小白 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 新导入项目之后,在下载依赖的过程中,依赖包提示报错,截图问题原因:本地仓库的原因,由于本地仓库中有众多的版本jar包导致解决方法:可以在idea中为当前项目更换一个本地仓库,然后重新下载相关依赖包即可。 阅读全文
posted @ 2020-02-06 15:57 郭小白 阅读(2104) 评论(0) 推荐(0) 编辑
摘要: Shuffle Read 对于每个stage来说,它的上边界,要么从外部存储读取数据,要么读取上一个stage的输出。而下边界要么是写入到本地文件系统(需要有shuffle),一共child stage进行读取,要么就是最后一个stage,需要输出结果。这里的stage在运行时就可以以流水线的方式进 阅读全文
posted @ 2020-02-04 20:16 郭小白 阅读(1397) 评论(0) 推荐(0) 编辑
摘要: 存储模块存储级别意义NONE不会保存任何的数据DISK_ONLY直接将RDD的Partition保存在该节点的Disk上MEMORY_ONLY将RDD的Partition对应的原生的java object对象保存在JVM中。如果RDD太大,导致部分Partition无法保存在内存中的话,那么这些Partition将不会被缓存,在需要的时候,会被重新计算。这是默认的存储级别。MEMORY_ONLY_... 阅读全文
posted @ 2020-02-03 15:38 郭小白 阅读(2505) 评论(0) 推荐(0) 编辑
摘要: 一、shuffle定义 shuffle,即为洗牌的意思,在大数据计算中,无论是mapreduce框架还是spark框架,都需要shuffle,那是因为在计算的过程中,具有某种特征的数据最终需要汇聚在一个节点上进行计算,这些数据是分部在集群中不同的节点上由各自节点进行计算。就比如以workcount为 阅读全文
posted @ 2020-02-02 23:57 郭小白 阅读(673) 评论(0) 推荐(0) 编辑
摘要: RDD、DataFrame与DataSet三者有许多的共性,都有各自使用的场景,常常需要在三者之间进行转换DataFrame/Dataset 转 RDD:val rdd1=testDF.rddval rdd2=testDS.rdd RDD 转 DataFrame:// 一般用元组把一行的数据写在一起,然后在toDF中指定字段名import spark.implicits._val testDF =... 阅读全文
posted @ 2020-01-28 22:03 郭小白 阅读(2198) 评论(0) 推荐(0) 编辑
摘要: 撰写本文的目的:对于sparksql,网上有大量的详细文档,本人针对常用的操作进行一个整理,当然有大多数都是从其他地方搬过来的,包括官方文档以及其他网友的一些分享,一来是通过此次整理加强自己的记忆,二来如果有幸帮到某位网友,那是本人莫大的荣幸,先感谢您的阅读,废话不多说,进入正文: 下文所涉及到的相 阅读全文
posted @ 2020-01-28 21:43 郭小白 阅读(5090) 评论(1) 推荐(1) 编辑