上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 99 下一页
摘要: 1. 概述 Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop的工作机制 将导入和导出的命 阅读全文
posted @ 2022-05-03 14:53 hanease 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分布 阅读全文
posted @ 2022-05-03 14:48 hanease 阅读(2105) 评论(0) 推荐(0) 编辑
摘要: 1、DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调 阅读全文
posted @ 2022-05-03 14:34 hanease 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的 阅读全文
posted @ 2022-05-03 14:32 hanease 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 1.工作流调度器 1.为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可 阅读全文
posted @ 2022-05-03 14:08 hanease 阅读(190) 评论(0) 推荐(0) 编辑
摘要: Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,也可以说hive就是一个MapReduce的客户端 Hive与数据库的区别 Hive的优缺点 阅读全文
posted @ 2022-05-03 08:36 hanease 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 集成分析 HBase表中的数据最终都是存储在HDFS上,HBase天生的支持MR的操作,我们可以通过MR直接处理HBase表中的数据,并且MR可以将处理后的结果直接存储到HBase表中。 参考地址:http://hbase.apache.org/book.html#mapreduce 1 实现方式一 阅读全文
posted @ 2022-05-02 22:40 hanease 阅读(53) 评论(0) 推荐(0) 编辑
摘要: HBase表热点 1 什么是热点 检索habse的记录首先要通过row key来定位数据行。 当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。 2 热点的解决方 阅读全文
posted @ 2022-05-02 22:38 hanease 阅读(143) 评论(0) 推荐(0) 编辑
摘要: HBase是一个分布式的NoSql数据库,在实际工作当中,我们一般都可以通过JavaAPI来进行各种数据的操作,包括创建表,以及数据的增删改查等等 1 创建maven工程 讲如下内容作为maven工程中pom.xml的repositories的内容 自动导包 <?xml version="1.0" 阅读全文
posted @ 2022-05-02 22:37 hanease 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 1.1 准备安装包 下载安装包并上传到hadoop01服务器 安装包下载地址:https://www.apache.org/dyn/closer.lua/hbase/2.2.6/hbase-2.2.6-bin.tar.gz 将安装包上传到node01服务器/bigdata/softwares路径下, 阅读全文
posted @ 2022-05-02 22:34 hanease 阅读(101) 评论(0) 推荐(0) 编辑
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 99 下一页