随笔分类 - hadoop生态框架
摘要:1 MapReduce概述 1.1 MapReduce定义 ● 分布式运算程序的编程框架 ● 开发“基于Hadoop的数据分析应用”的核心框架 ● 核心功能:将用户编写的业务逻辑代码+自带默认组件 —>整合为分布式运算程序,并发运行在Hadoop集群上。 1.2 MapReduce优缺点 1.2.1
阅读全文
摘要:1 Redis介绍 1.1 Redis是什么? ● Redis(Remote Dictionary Server),即远程字典服务。key—value存储系统,是跨平台的非关系型数据库。 ● Redis是一个开源的使用ANSI C语言编写、遵循BSD协议、支持网络、可基于内存、分布式、可选持久性的键
阅读全文
摘要:1 Flume概述 1.1 定义 ● Flume是Cloudera提供的一个高可用,高可靠,分布式的海量日志采集、聚合、传输的框架。 ● 主要作用:实时读取服务器本地磁盘的数据,将数据写入到HDFS。 数据(服务器)——> HDFS 1.2 基础架构 Flume基础构架图: (1) Agent ●
阅读全文
摘要:1 Kafka概述 1.1 定义 ● 基于发布/订阅模式的消息队列(Message Queue)—— 传统 ● 分布式事件流平台(event streaming platform)—— 最新定位 1.2 消息队列 1.2.1 传统消息队列的应用场景 1)引用场景 2)使用消息队列的好处 解耦 ● 允
阅读全文
摘要:1 大数据概念 1.1 大数据概念 大数据(Big Data) ● 指无法在一定时间范围内用常规工具捕捉、管理、处理的数据集合。 ● 需要新处理模式才能具有鞥讫那个的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决 ● 海量数据的存储、分析计算问题。 1.2 大数据特点
阅读全文
摘要:1 HDFS 概述 1.1 HDFS产出背景及定义 产出背景 ● 随着数据量变大,系统存不下,分配更多系统磁盘,但是管理不方便。 ● 需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统。 ● HDFS — 分布式文件管理系统 定义: ● HDFS(Hadoop Distributed Fi
阅读全文