摘要: [TOC] ## 1.1 hive出现的原因 FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目(hive是由Facebook开源用于解决海量结构化日志的数据统计)==》广泛应用原因: + 阅读全文
posted @ 2023-08-13 21:23 *润物无声* 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 本文会通过四个方面介绍Hive性能调优,主要包括: √性能调优工具 √设计优化策略 √数据存储优化 √作业优化技巧 ## 1.合并中间表 一个日志文件中,每一行记录,会有很多很多字段,四五十个字段很正常。实际分析中,常常使用少数几个字段将原始的表中数据,依据业务需求提取出要分析的字段,数据放入到对应 阅读全文
posted @ 2023-08-13 16:56 *润物无声* 阅读(361) 评论(0) 推荐(0) 编辑
摘要: [TOC] ## hadoop 的三大组件和关系 ### 1. HDFS:分布式文件系统 > #### hdfs 的特点和不适用使用场景 >> 1.1 HDFS文件系统可存储超大文件(不适用有大量小文件场景和小量场景,默认块大小是MB,资源浪费) >> 1.2 一次写入,多次读取(不适用多用户更新, 阅读全文
posted @ 2023-08-13 16:54 *润物无声* 阅读(15) 评论(0) 推荐(0) 编辑