摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、常用命令 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数据库中某张表数据生成Java并打包Jar 4 create-hive-table CreateHiv
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、增量数据导入 ### 变化数据捕获(CDC) ~~~ 前面都是执行的全量数据导入。如果数据量很小,则采取完全源数据抽取;如果源数据量很大, ~~~ 则需要抽取发生变化的数据,这种数据抽取模式叫做变化数据捕获,简称CDC(Change Data Capture)。 ### CDC大体分为两种: ~
阅读全文
摘要:一、执行 job ### 执行数据增量导入有两种实现方式: ~~~ 每次手工配置last-value,手工调度 ~~~ 使用job,给定初始last-value,定时任务每天定时调度很明显方式2更简便。 ### 创建口令文件 [root@linux123 ~]# echo -n "12345678"
阅读全文
摘要:一、MySQL 到 Hive ### MySQL 到 Hive ~~~ 导入:数据进入大数据平台:import ~~~ 导出:数据离开大数据平台:export ### 在 hive 中创建表: [root@linux123 ~]# hive hive (default)> use mydb; ~~~
阅读全文
摘要:一、Sqoop概述 ### [数据迁移工具-Sqoop] ~~~ [sqoop概述原理及安装部署] ~~~ [sqoop应用案例之导入全部数据] ~~~ [Sqoop应用案例之后查询指定列及where使用] ~~~ [sqoop应用案例之多Mapper导入及hive表导入] ~~~ [sqoop应用
阅读全文
摘要:一、应用案例 ### 在Sqoop中 ~~~ # 导入是指: ~~~ 从关系型数据库向大数据集群(HDFS、HIVE、HBASE)传输数据;使用import关键字; ~~~ # 导出是指: ~~~ 从 大数据集群 向 关系型数据库 传输数据;使用export关键字; ### 测试数据脚本 ~~~ 以
阅读全文
摘要:一、高可用案例:案例:实现Agent的故障转移 ### 配置环境在linux121、linux122上部署Flume、修改环境变量 ~~~ # 在liunx123上执行 [root@linux123 ~]# cd /opt/yanqi/servers/ [root@linux123 servers]
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、事务机制与可靠性 ### 事务机制与可靠性 ~~~ 一提到事务,首先就想到的是关系型数据库中的事务, ~~~ 事务一个典型的特征就是将一批操作做成原子性的,要么都成功,要么都失败。 ### 在Flume中一共有两个事务: ~~~ Put事务。在Source到Channel之间 ~~~ Take事
阅读全文
摘要:一、Sink组逻辑处理器 ### Sink组逻辑处理器 ~~~ 可以把多个sink分成一个组, ~~~ Sink组逻辑处理器可以对这同一个组里的几个sink进行负载均衡 或者 ~~~ 其中一个sink发生故障后将输出Event的任务转移到其他的sink上。 ### N个sink将Event输出到对应
阅读全文
摘要:一、选择器 ### 选择器 ~~~ source可以向多个channel同时写数据,所以也就产生了以何种方式向多个channel写的问题: ~~~ replication(复制,缺省)。数据完整地发送到每一个channel; ~~~ multiplexing(多路复用)。通过配置来按照一定的规则进行
阅读全文
摘要:一、高级特性 ### [数据采集工具-Flume] ~~~ [Flume高级特性之拦截器] ~~~ [Flume高级特性之选择器,Sink组逻辑处理器] ~~~ [Flume高级特性之事务机制及可靠性] ~~~ [Flume高可用] ### 拦截器 ~~~ Flume支持在运行时对event进行修改
阅读全文
摘要:一、Host添加拦截器 ### Host添加拦截器 ~~~ 这个拦截器会把当前Agent的 hostname 或者 IP 地址写入到Event的header中, ~~~ key默认是“host”(也可以通过配置自定义key),value可以选择使用hostname或者IP地址。 二、host添加拦截
阅读全文
摘要:一、监控日志文件采集数据到HDFS、本地文件系统 ### 监控日志文件采集数据到HDFS、本地文件系统 ~~~ # 业务需求: ~~~ 监控日志文件,收集信息上传到HDFS 和 本地文件系统 ### 需求分析: ~~~ 需要多个Agent级联实现 ~~~ source 选择 taildir ~~~
阅读全文
摘要:一、入门案例 ### 中文flume帮助文档:https://flume.liyifeng.org/ ~~~ # 业务需求: ~~~ 监听本机 8888 端口,Flume将监听的数据实时显示在控制台 ### 需求分析: ~~~ 使用 telnet 工具可以向 8888 端口发送数据 ~~~ 监听端口
阅读全文
摘要:一、监控日志文件信息到HDFS ### 监控日志文件信息到HDFS ~~~ # 业务需求: ~~~ 监控本地日志文件,收集内容实时上传到HDFS ### 需求分析: ~~~ 使用 tail -F 命令即可找到本地日志文件产生的信息 ~~~ source 选择 exec。exec 监听一个指定的命令,
阅读全文
摘要:一、监控目录采集信息到HDFS ### 监控目录采集信息到HDFS ~~~ # 业务需求: ~~~ 监控指定目录,收集信息实时上传到HDFS ### 需求分析: ~~~ source 选择 spooldir。 ~~~ spooldir 能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控
阅读全文