摘要: 问题: SparkStreaming 流式流式任务总是异常退出,看过worker的日志后发现再爬取一个二进制文件时会出现堆内存溢出的问题,将该文件下载下来后发现该文件的大小只有8m左右,我们的任务设置的worker内存为3G,正常来说是不会导致内存溢出的。网络爬虫的框架使用的是webmagic,于是 阅读全文
posted @ 2022-08-07 21:10 桂花载酒少年游O 阅读(211) 评论(0) 推荐(0) 编辑