会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
mengrennwpu
好学求知,稳健中流
博客园
首页
新随笔
联系
管理
订阅
2019年5月13日
Spark读取HDFS中的Zip文件
摘要: 1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件
阅读全文
posted @ 2019-05-13 23:05 mengrennwpu
阅读(4118)
评论(0)
推荐(0)
编辑
公告