上一页 1 2 3 4 5 6 7 ··· 33 下一页
  2021年12月22日
摘要: 分区数=reducer数 参考资料: https://www.bilibili.com/video/BV1Qp4y1n7EN?p=69&spm_id_from=pageDriver 思考: MapTask是怎么工作的? ReduceTask是怎么工作的? MapTask如何控制分区、排序? MapT 阅读全文
posted @ 2021-12-22 00:20 坚守梦想 阅读(127) 评论(0) 推荐(1) 编辑
  2021年12月21日
摘要: 在公司第二次写spark任务的时候,跑一小时的数据,大概4000万条客户端请求,因为使用了groupby统计客户端版本分布,结果任务先后出现了time out, out of memory异常(有时候成功,有时候失败)。 学习笔记: 他们都是要经过shuffle的,groupByKey在方法shuf 阅读全文
posted @ 2021-12-21 23:55 坚守梦想 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 1:解决分布式计算的通信问题(你怎么知道任务一有没有结束呢?) 2:解决了分布式计算资源调度问题(比如同时读取到一个文件) 3:解决了分布式计算容错问题(一个任务运行失败了,可以将这个任务的执行交给其他任务) 参考资料:MapReduce概述和优缺点。(感谢尚硅谷,感谢大海哥) https://ww 阅读全文
posted @ 2021-12-21 23:41 坚守梦想 阅读(267) 评论(0) 推荐(0) 编辑
  2021年12月18日
摘要: 修改Spark Web UI默认的8080端口 修改SPARK_HOME/sbin目录下start-master.sh,查找8080定位并修改成你想要的端口便可rest if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then SPARK_MASTER_WEBUI_P 阅读全文
posted @ 2021-12-18 19:07 坚守梦想 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 查看安装目录的logs目录下面的日志,发现是8080端口被其他进程占用了。(我启动了spark任务,spark的web ui默认也是使用8080端口) 题外话,zookeeper的启动日志有bug, Starting zookeeper ... STARTED日志打印出来后,就应该说明zookeep 阅读全文
posted @ 2021-12-18 12:28 坚守梦想 阅读(1379) 评论(0) 推荐(0) 编辑
摘要: 百度搜索zookeeper download 》点击download mirror这个网页 》点击推荐的donwload网址 》archives 》3.4.5 带bin.tar.gz 百度搜索zookeeper download 》点击index of/dist/zookeeper这个网页 》arc 阅读全文
posted @ 2021-12-18 12:04 坚守梦想 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 百度spark 》进入spark官网 》Download 》Spark release archives. 百度spark 》进入spark Download网页 》Spark release archives. 点击菜单栏的Download菜单。 Spark release archives. 阅读全文
posted @ 2021-12-18 11:52 坚守梦想 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 工具 》选项 》高级 》去掉勾选将记事本作为文本编辑器 》选择编辑器路径(notepad++.exe的完整路径) 阅读全文
posted @ 2021-12-18 10:58 坚守梦想 阅读(525) 评论(0) 推荐(1) 编辑
  2021年11月21日
摘要: 通过本次分享,你可以学习到如下的内容: org.springframework.beans.factory.annotation.InitDestroyAnnotationBeanPostProcessor的功能,何时将Bean的生命周期注解缓存起来的。 org.springframework.co 阅读全文
posted @ 2021-11-21 12:34 坚守梦想 阅读(137) 评论(0) 推荐(0) 编辑
  2021年11月11日
摘要: 阅读全文
posted @ 2021-11-11 00:09 坚守梦想 阅读(227) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 33 下一页