摘要: 比如启动四个节点,但是在处理数据的时候负载不均衡,只有两个节点的使用率很高。可以推测与分区数有关,测试数据集为267MB,hdfs中默认的数据分片大小为128MB,约有两个分区。推测只有两个分区能拿到数据进行计算,所以将hdfs的数据分片大小改为64MB,这样约有4个分区,与集群中的Executor 阅读全文
posted @ 2021-03-04 17:03 wanpi 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 在Spark中,job与被组织在DAG中的一组RDD依赖性密切相关,类似下图: 这个job执行一个简单的word cout。首先,它执行一个textFile从HDFS中读取输入文件,然后进行一个flatMap操作把每一行分割成word,接下来进行一个map操作,以形成form(word,1)对,最后 阅读全文
posted @ 2021-03-04 16:18 wanpi 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 报错内容: Error running 'ServiceStarter': Command line is too long. Shorten command line for ServiceStarter or also for Application default configuration. 阅读全文
posted @ 2021-03-04 15:31 wanpi 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 过完春节的最近几天,大家纷纷走进电影院,和家人或者朋友或者恋人一同观看好看的电影吧。听说大年初一第一天唐探3售出10万张电影票,比李焕英的多了3倍还多。不过最近几天大家对唐探3的期望大幅度下降了,而李焕英成为了一匹黑马,票房不断攀升。迎来了:再见,唐探3;你好,李焕英!的场面,下面让我们看看豆瓣影评 阅读全文
posted @ 2021-02-15 21:29 wanpi 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 最近一段时间在学习spark,以下是学习过程中的一些总结。 1、Q:RDD中的Transformation 和Action操作都有哪些? A:整理如下: Transformation 与 Action 的区别还在于,对 RDD 进行 Transformation 并不会触发计算:Transforma 阅读全文
posted @ 2021-02-02 21:03 wanpi 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 许多新学员不知道开始学Python需要安装什么,需要准备什么,特地写下这篇文档给一脸懵逼的新同学们作为指导文档。 很多人想到学习Python就要去官网下载一个Python,其实并不需要,因为anaconda本身就自带了Python的解释器而且还自带了很多实用性工具,比如:丘比特笔记本(jupyte 阅读全文
posted @ 2021-02-01 18:29 wanpi 阅读(208) 评论(0) 推荐(0) 编辑
摘要: Q:第一次提交wordcount案例,OK,一切正常。再次提交,出现下述错误。完整错误粘贴如下: 21/01/27 14:55:48 INFO spark.SecurityManager: Changing modify acls groups to: 21/01/27 14:55:48 INFO 阅读全文
posted @ 2021-01-27 16:25 wanpi 阅读(879) 评论(0) 推荐(0) 编辑
摘要: 我想说4040端口太坑了,我运行wodcount案例,时间那么短,想去4040里查看任务具体运行情况,根本不可能。spark程序运行完毕后,就再无法通过4040端口看到什么了。今天我们通过修改spark的一些配置文件,使得我们的程序运行结束后,依然能够查看,并且通过WEBUI页面,可以看到一些详细内 阅读全文
posted @ 2021-01-27 15:57 wanpi 阅读(465) 评论(0) 推荐(1) 编辑
摘要: Spark 中 JVM 内存使用及配置详情、spark报错与调优、Spark内存溢出OOM异常 :https://blog.csdn.net/qq_22473611/article/details/105989061 Spark快速入门系列(5) | Spark环境搭建—standalone(2) 阅读全文
posted @ 2021-01-27 15:13 wanpi 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 问题:Could not locate executable null\bin\winutils.exe in the Hadoop binaries 解决:缺少winutils.exe程序。 Hadoop都是运行在Linux系统下的,在windows下的IDEA中运行mapreduce程序,要首先 阅读全文
posted @ 2021-01-22 10:00 wanpi 阅读(268) 评论(0) 推荐(0) 编辑