摘要: CentOS7更换yum为阿里源 1 备份本地源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 2 获取阿里源配置文件CentOS 6wget -O /etc/yum.repos.d/Cent 阅读全文
posted @ 2022-05-03 19:36 hanease 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1、Maxwell 简介 Maxwell 是一个能实时读取 MySQL 二进制日志文件binlog,并生成 Json格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维 阅读全文
posted @ 2022-05-03 19:31 hanease 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1 Kafka简介 ​Kafka是最初由Linkedin公司开发,它是一个分布式、可分区、多副本,基于zookeeper协调的分布式日志系统;常见可以用于web/nginx日志、访问日志,消息服务等等。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集 阅读全文
posted @ 2022-05-03 19:17 hanease 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop的工作机制 将导入和导出的命 阅读全文
posted @ 2022-05-03 14:53 hanease 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分布 阅读全文
posted @ 2022-05-03 14:48 hanease 阅读(2105) 评论(0) 推荐(0) 编辑
摘要: 1、DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调 阅读全文
posted @ 2022-05-03 14:34 hanease 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的 阅读全文
posted @ 2022-05-03 14:32 hanease 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 1.工作流调度器 1.为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可 阅读全文
posted @ 2022-05-03 14:08 hanease 阅读(190) 评论(0) 推荐(0) 编辑
摘要: Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,也可以说hive就是一个MapReduce的客户端 Hive与数据库的区别 Hive的优缺点 阅读全文
posted @ 2022-05-03 08:36 hanease 阅读(276) 评论(0) 推荐(0) 编辑