摘要: 背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook 阅读全文
posted @ 2020-05-21 15:33 sw_kong 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 控制hive任务中的map数 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举 阅读全文
posted @ 2020-05-21 09:13 sw_kong 阅读(524) 评论(0) 推荐(0) 编辑