上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 1 Kafka简介 ​Kafka是最初由Linkedin公司开发,它是一个分布式、可分区、多副本,基于zookeeper协调的分布式日志系统;常见可以用于web/nginx日志、访问日志,消息服务等等。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集 阅读全文
posted @ 2021-06-20 14:36 Tenic 阅读(1103) 评论(0) 推荐(0) 编辑
摘要: 1、下载对应版本的安装包 地址:https://github.com/zendesk/maxwell/releases/download/v1.21.1/maxwell-1.21.1.tar.gz 安装包名称:maxwell-1.21.1.tar.gz 2、上传服务器,这里我们选择在hadoop03 阅读全文
posted @ 2021-06-20 14:22 Tenic 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 1、Maxwell 简介 Maxwell 是一个能实时读取 MySQL 二进制日志文件binlog,并生成 Json格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、 Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、 阅读全文
posted @ 2021-06-20 14:20 Tenic 阅读(1322) 评论(1) 推荐(0) 编辑
摘要: 需求分析 我们从HDFS上的特定目录下的文件,读取到本地目录下的特定目录下 根据需求,首先定义以下3大要素 数据源组件,即source ——监控HDFS目录文件 : exec 'tail -f' 下沉组件,即sink—— file roll sink 通道组件,即channel——可用file ch 阅读全文
posted @ 2021-06-20 01:31 Tenic 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 需求分析: 采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -f file’ 下沉目标,即sink——HDFS文件系统 : hdfs 阅读全文
posted @ 2021-06-20 01:06 Tenic 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 需求分析 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 结构示意图: 根据需求,首先定义以下3大要素 数据源组件,即source ——监控文件目录 : spooldir spooldir特性: 1、监视一个目录,只要目录中出现新文件,就会采集 阅读全文
posted @ 2021-06-20 00:13 Tenic 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 需求:配置我们的网络收集的配置文件;从某socket端口采集数据,采集到的数据打印到console控制台 在flume的conf目录下新建一个配置文件(采集方案) cd /bigdata/install/flume-1.9.0/conf vim netcat-logger.conf 内容如下 # 定 阅读全文
posted @ 2021-06-19 23:38 Tenic 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 第一步:下载解压修改配置文件 Flume的安装非常简单,只需要解压即可 上传安装包到数据源所在节点上 这里我们在第三台机器hadoop03来进行安装 cd /bigdata/soft tar -xzvf apache-flume-1.9.0-bin.tar.gz -C /bigdata/instal 阅读全文
posted @ 2021-06-19 23:27 Tenic 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分 阅读全文
posted @ 2021-06-19 23:22 Tenic 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 需求: 将hdfs上数据文件 user.txt 导入到mysql数据库的user表中。 1、创建作业的配置文件(json格式) 查看配置模板,执行脚本命令 [hadoop@hadoop03 ~]$ cd /bigdata/install/datax [hadoop@hadoop03 datax]$ 阅读全文
posted @ 2021-06-19 00:23 Tenic 阅读(1374) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页