摘要: 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 1 日志采集框架Flume Flume是一个分布式、可靠、和高可用的海量日志采集、聚 阅读全文
posted @ 2017-07-21 21:49 Smileing 阅读(1386) 评论(0) 推荐(0) 编辑
摘要: Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1为什么使用Hive 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。扩展功能很方便。 1.2 阅读全文
posted @ 2017-07-21 20:20 Smileing 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 1.Mapreduce是什么? Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 2.作用 (1)海量数据在 阅读全文
posted @ 2017-07-21 16:30 Smileing 阅读(1824) 评论(0) 推荐(0) 编辑