Spark:读取hdfs gz压缩包
spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别:
使用spark-shell进入spark shell 交互界面:
输入命令:
sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)
回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。
参考文章:
http://blog.csdn.net/xuyaoqiaoyaoge/article/details/52943606
基础才是编程人员应该深入研究的问题,比如:
1)List/Set/Map内部组成原理|区别
2)mysql索引存储结构&如何调优/b-tree特点、计算复杂度及影响复杂度的因素。。。
3)JVM运行组成与原理及调优
4)Java类加载器运行原理
5)Java中GC过程原理|使用的回收算法原理
6)Redis中hash一致性实现及与hash其他区别
7)Java多线程、线程池开发、管理Lock与Synchroined区别
8)Spring IOC/AOP 原理;加载过程的。。。
【+加关注】。