摘要: HBase 一、简介 Hbase是一个高可用、高性能、面向列、可伸缩、实时读写的分布式数据库 。 是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。 HBase 是Google Bigtable 的开源实现,与Google Bigtab 阅读全文
posted @ 2019-08-26 14:02 好男孩zxn 阅读(181) 评论(0) 推荐(0) 编辑
摘要: sqoop数据迁移 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出 阅读全文
posted @ 2019-08-15 08:24 好男孩zxn 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 一.flume介绍 1.1 什么是Flume flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume 阅读全文
posted @ 2019-08-08 08:32 好男孩zxn 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Hive 1. 一 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1) 阅读全文
posted @ 2019-07-31 08:21 好男孩zxn 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Zookeeper 1. 一 Zookeeper概述 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 1.2 特点 1)Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。 2)Leader负责进行 阅读全文
posted @ 2019-07-30 08:38 好男孩zxn 阅读(1425) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Yarn 五 Yarn 5.1 Yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 5.2 Yarn的重要概念 1)Yarn并不清楚用户提交的程序的运行机制 2)Y 阅读全文
posted @ 2019-07-29 08:35 好男孩zxn 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 1. 一MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序 +的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop 阅读全文
posted @ 2019-07-26 11:30 好男孩zxn 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 一 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS概念 HDFS 阅读全文
posted @ 2019-07-25 11:44 好男孩zxn 阅读(323) 评论(0) 推荐(0) 编辑
摘要: Shell脚本 Shell就是一个命令行解释器,它的作用是解释执行用户的命令,用户输入一条命令,Shell就解释执行一条,这种方式称为交互式(Interactive)。 Shell还有一种执行命令的方式称为批处理(Batch),用户事先写一 个Shell脚本(Script),其中有很多条命令,让Sh 阅读全文
posted @ 2019-07-24 08:37 好男孩zxn 阅读(458) 评论(0) 推荐(0) 编辑
摘要: <!--配置HDFS文件系统的命名空间--> <property> <name>fs.defaultFS</name> <value>hdfs://jh01:9000</value> </property> <!--HDFS读取文件的缓冲大小--> <property> <name>io.file. 阅读全文
posted @ 2019-07-22 11:44 好男孩zxn 阅读(320) 评论(0) 推荐(0) 编辑