2021 年 6月 24 日随笔档案 - 泷十三

2021年6月24日

摘要： hive完事了今天辅助系统三个组件数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，任务调度 oozie Azkaban 工具对比最终拿到数据展现出来阅读全文

posted @ 2021-06-24 15:47 泷十三阅读(185) 评论(0) 推荐(0) 编辑

hive的简单学习

摘要：啥是hive？为啥学习它？ Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大，使用Hive能够使用类SQL语法，提供效率。有这么些个特点：可扩展（自由扩展规模），可延展（阅读全文

posted @ 2021-06-24 11:13 泷十三阅读(419) 评论(0) 推荐(0) 编辑

Spark RDD弹性分布式数据集

摘要：为啥要学Spark中的RDD？？ RDD的全称叫做Resilient Distributed Datasets，即弹性分布式数据集。之前我们学过MapReduce，它具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文

posted @ 2021-06-24 08:34 泷十三阅读(244) 评论(0) 推荐(0) 编辑

泷十三

公告