08 2023 档案
摘要:前言 1.kafka简介 Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hado
阅读全文
摘要:(1):采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs (2):根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hd
阅读全文
摘要:(1)采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 (2)根据需求,首先定义以下3大要素 a):采集源,即source——监控文件目录 : spooldir b):下沉目标,即sink——HDFS文件系统 : hdfs sink c):sou
阅读全文
摘要:###监视文件夹 #####1.`在flume的conf的目录下创建文件名称为:vim spool-logger.conf的文件` ``` # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels =
阅读全文
摘要:###1.安装包下载路径 ``` https://mirrors.tuna.tsinghua.edu.cn/apache/ ``` ###2.安装环境 ``` 192.168.11.128 192.168.11.129 192.168.11.130 ``` ###3.解压gz压缩包到3个机器节点 `
阅读全文
摘要:建表语句 ``` CREATE external TABLE `login_number`( serial_number string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEP
阅读全文
摘要:###hive中分组排序过滤使用顺序。 ``` where,group by,having,order by同时使用,执行顺序为 (1)where过滤数据 (2)对筛选结果集group by分组 (3)对每个分组进行select查询,提取对应的列,有几组就执行几次 (4)再进行having筛选每组数
阅读全文