摘要: SparkStreaming拉取Kafka中数据,处理后入库。整个流程速度很慢,除去代码中可优化的部分,也在spark集群中找原因。 发现: 集群在处理数据时存在移动数据与移动计算的区别,也有些其他叫法,如:数据本地化、计算本地化、任务本地化等。 自己简单理解: 假设集群有6个节点,来了一批数据共1 阅读全文
posted @ 2018-01-18 18:15 右介 阅读(2940) 评论(0) 推荐(0) 编辑
摘要: 执行stop-all.sh时,出现报错:no org.apache.spark.deploy.master.Master to stop,no org.apache.spark.deploy.worker.Worker to stop 原因: Spark的停止,是通过一些.pid文件来操作的。 查看 阅读全文
posted @ 2018-01-18 12:24 右介 阅读(2562) 评论(0) 推荐(0) 编辑