hanease

2022年5月3日

摘要： 1. 概述 Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop的工作机制将导入和导出的命阅读全文

posted @ 2022-05-03 14:53 hanease 阅读(232) 评论(0) 推荐(0) 编辑

日志数据采集-Flume

摘要： 1. 前言在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 2. Flume基本介绍 1. 概述 Flume是一个分布阅读全文

posted @ 2022-05-03 14:48 hanease 阅读(2105) 评论(0) 推荐(0) 编辑

工作流程调度器-DolphinScheduler

摘要： 1、DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)（目前处在孵化阶段）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调阅读全文

posted @ 2022-05-03 14:34 hanease 阅读(615) 评论(0) 推荐(0) 编辑

数据同步工具-DataX

摘要： 1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具，致力于实现包括：关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的阅读全文

posted @ 2022-05-03 14:32 hanease 阅读(425) 评论(0) 推荐(0) 编辑

工作流调度器-Azkaban

摘要： 1.工作流调度器 1.为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可阅读全文

posted @ 2022-05-03 14:08 hanease 阅读(190) 评论(0) 推荐(0) 编辑

Hive教程

摘要： Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储支持，也可以说hive就是一个MapReduce的客户端 Hive与数据库的区别 Hive的优缺点阅读全文

posted @ 2022-05-03 08:36 hanease 阅读(276) 评论(0) 推荐(0) 编辑

2022年5月2日

HBase-4MapReduce

摘要：集成分析 HBase表中的数据最终都是存储在HDFS上，HBase天生的支持MR的操作，我们可以通过MR直接处理HBase表中的数据，并且MR可以将处理后的结果直接存储到HBase表中。参考地址：http://hbase.apache.org/book.html#mapreduce 1 实现方式一阅读全文

posted @ 2022-05-02 22:40 hanease 阅读(53) 评论(0) 推荐(0) 编辑

HBase-3rowkey的设计

摘要： HBase表热点 1 什么是热点检索habse的记录首先要通过row key来定位数据行。当大量的client访问hbase集群的一个或少数几个节点，造成少数region server的读/写请求过多、负载过大，而其他region server负载却很小，就造成了“热点”现象。 2 热点的解决方阅读全文

posted @ 2022-05-02 22:38 hanease 阅读(143) 评论(0) 推荐(0) 编辑

HBase-2JavaAPI操作

摘要： HBase是一个分布式的NoSql数据库，在实际工作当中，我们一般都可以通过JavaAPI来进行各种数据的操作，包括创建表，以及数据的增删改查等等 1 创建maven工程讲如下内容作为maven工程中pom.xml的repositories的内容自动导包 <?xml version="1.0" 阅读全文

posted @ 2022-05-02 22:37 hanease 阅读(119) 评论(0) 推荐(0) 编辑

HBase-1集群安装部署

摘要： 1.1 准备安装包下载安装包并上传到hadoop01服务器安装包下载地址：https://www.apache.org/dyn/closer.lua/hbase/2.2.6/hbase-2.2.6-bin.tar.gz 将安装包上传到node01服务器/bigdata/softwares路径下，阅读全文

posted @ 2022-05-02 22:34 hanease 阅读(101) 评论(0) 推荐(0) 编辑

公告