2020 年 5月 21 日随笔档案 - sw_kong

2020年5月21日

摘要：背景早在2013年1月，ORC(Optimized Row Columnar)出现，作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。目前有很多公司已经大规模使用ORC了，比如Facebook 阅读全文

posted @ 2020-05-21 15:33 sw_kong 阅读(595) 评论(0) 推荐(0) 编辑

控制hive任务中的map数和reduce数

摘要：控制hive任务中的map数通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举阅读全文

posted @ 2020-05-21 09:13 sw_kong 阅读(535) 评论(0) 推荐(0) 编辑

sw_kong

公告