会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
sxhlinux
当你回首往事,能够说出“努力过、争取过、没有浪费机会”
博客园
首页
新随笔
联系
订阅
管理
2020年7月10日
spark 解决大文件造成的分区数据量过大的问题
摘要: 背景 在使用spark处理文件时,经常会遇到要处理的文件大小差别的很大的情况。如果不加以处理的话,特别大的文件就可能产出特别大的spark 分区,造成分区数据倾斜,严重影响处理效率。 解决方案 Spark RDD spark在读取文件构建RDD的时候(调用spark.SparkContext.Tex
阅读全文
posted @ 2020-07-10 01:15 sxhlinux
阅读(6788)
评论(0)
推荐(0)
编辑
公告