会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
记录
公众号:远去的列车
博客园
首页
新随笔
联系
订阅
管理
2022年3月27日
Spark读取HDFS小文件优化
摘要: Spark读取HDFS目录,若该目录下存在大量小文件时,每个文件都会生成一个Task,当存在大量任务时,可能存在性能不足的问题,可以使用CombineTextInputFormat类代替TextInputFormat类进行优化,同时配合使用hadoop参数mapreduce.input.filein
阅读全文
posted @ 2022-03-27 15:17 远去的列车
阅读(737)
评论(0)
推荐(0)
编辑
公告