2023 年 8月随笔档案 - whiteY

kafka安装部署与使用

摘要：前言 1.kafka简介 Kafka是一个开源的分布式消息引擎/消息中间件，同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息，同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hado 阅读全文

posted @ 2023-08-31 11:51 whiteY 阅读(216) 评论(0) 推荐(0) 编辑

flume采集文件到HDFS案例

摘要：（1）：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs （2）：根据需求，首先定义以下3大要素采集源，即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标，即sink——HDFS文件系统 : hd 阅读全文

posted @ 2023-08-30 15:26 whiteY 阅读(83) 评论(0) 推荐(0) 编辑

flume采集目录到HDFS案例：

摘要：（1）采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去（2）根据需求，首先定义以下3大要素 a）：采集源，即source——监控文件目录 : spooldir b）：下沉目标，即sink——HDFS文件系统 : hdfs sink c）：sou 阅读全文

posted @ 2023-08-30 15:24 whiteY 阅读(54) 评论(0) 推荐(0) 编辑

flume监视文件夹案例

摘要：###监视文件夹 #####1.`在flume的conf的目录下创建文件名称为：vim spool-logger.conf的文件` ``` # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = 阅读全文

posted @ 2023-08-30 14:42 whiteY 阅读(65) 评论(0) 推荐(0) 编辑

flume安装配置与使用

摘要：###1.安装包下载路径 ``` https://mirrors.tuna.tsinghua.edu.cn/apache/ ``` ###2.安装环境 ``` 192.168.11.128 192.168.11.129 192.168.11.130 ``` ###3.解压gz压缩包到3个机器节点 ` 阅读全文

posted @ 2023-08-30 11:38 whiteY 阅读(202) 评论(0) 推荐(0) 编辑

hive建表以\t分割,直接put文件到表目录下进行查询

摘要：建表语句 ``` CREATE external TABLE `login_number`( serial_number string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEP 阅读全文

posted @ 2023-08-03 15:02 whiteY 阅读(98) 评论(0) 推荐(0) 编辑

hive同时使用where,group by,having,order by的执行顺序

摘要：###hive中分组排序过滤使用顺序。 ``` where,group by,having,order by同时使用，执行顺序为（1）where过滤数据（2）对筛选结果集group by分组（3）对每个分组进行select查询，提取对应的列，有几组就执行几次（4）再进行having筛选每组数阅读全文

posted @ 2023-08-02 16:59 whiteY 阅读(249) 评论(0) 推荐(0) 编辑

whiteY

08 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜