摘要: 比如启动四个节点,但是在处理数据的时候负载不均衡,只有两个节点的使用率很高。可以推测与分区数有关,测试数据集为267MB,hdfs中默认的数据分片大小为128MB,约有两个分区。推测只有两个分区能拿到数据进行计算,所以将hdfs的数据分片大小改为64MB,这样约有4个分区,与集群中的Executor 阅读全文
posted @ 2021-03-04 17:03 wanpi 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 在Spark中,job与被组织在DAG中的一组RDD依赖性密切相关,类似下图: 这个job执行一个简单的word cout。首先,它执行一个textFile从HDFS中读取输入文件,然后进行一个flatMap操作把每一行分割成word,接下来进行一个map操作,以形成form(word,1)对,最后 阅读全文
posted @ 2021-03-04 16:18 wanpi 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 报错内容: Error running 'ServiceStarter': Command line is too long. Shorten command line for ServiceStarter or also for Application default configuration. 阅读全文
posted @ 2021-03-04 15:31 wanpi 阅读(370) 评论(0) 推荐(0) 编辑