Spark - 随笔分类 - 坚守梦想

spark中生成RDD时分区规则是怎样的？（只需要看getPartitions方法的逻辑就可以了）

摘要：org.apache.spark.rdd.ParallelCollectionRDD#getPartitions org.apache.spark.rdd.HadoopRDD#getPartitions 需要注意的是getPartitions方法的触发时机是在行动算子执行的时候触发：阅读全文

posted @ 2022-01-09 12:47 坚守梦想阅读(85) 评论(0) 推荐(0) 编辑

MapReduce里面的分区数和Reducer的数目的关系？

摘要：分区数=reducer数参考资料： https://www.bilibili.com/video/BV1Qp4y1n7EN?p=69&spm_id_from=pageDriver 思考： MapTask是怎么工作的？ ReduceTask是怎么工作的？ MapTask如何控制分区、排序？ MapT 阅读全文

posted @ 2021-12-22 00:20 坚守梦想阅读(127) 评论(0) 推荐(1) 编辑

spark中groupByKey 和reduceByKey 的区别?

摘要：在公司第二次写spark任务的时候，跑一小时的数据，大概4000万条客户端请求，因为使用了groupby统计客户端版本分布，结果任务先后出现了time out, out of memory异常（有时候成功，有时候失败）。学习笔记：他们都是要经过shuffle的，groupByKey在方法shuf 阅读全文

posted @ 2021-12-21 23:55 坚守梦想阅读(92) 评论(0) 推荐(0) 编辑

spark web ui默认8080端口和zookeeper的admin 8080端口冲突，怎么解决？

摘要：修改Spark Web UI默认的8080端口修改SPARK_HOME/sbin目录下start-master.sh，查找8080定位并修改成你想要的端口便可rest if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then SPARK_MASTER_WEBUI_P 阅读全文

posted @ 2021-12-18 19:07 坚守梦想阅读(647) 评论(0) 推荐(0) 编辑

如何下载spark历史版本（比如spark 3.0.0）

摘要：百度spark 》进入spark官网》Download 》Spark release archives. 百度spark 》进入spark Download网页》Spark release archives. 点击菜单栏的Download菜单。 Spark release archives. 阅读全文

posted @ 2021-12-18 11:52 坚守梦想阅读(961) 评论(0) 推荐(0) 编辑

failed to launch: nice -n 0 /home/hadoop/spark-2.3.3-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://namenode1:7077

摘要：spark2.3.3安装完成之后启动报错： [hadoop@namenode1 sbin]$ ./start-all.shstarting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-2.3.3-bin-h 阅读全文

posted @ 2019-04-06 09:23 坚守梦想阅读(2869) 评论(0) 推荐(0) 编辑

随笔分类 - Spark