2024 年 1月 30 日随笔档案 - 停不下的时光

2024年1月30日

摘要： Hive Hive基本概念 Hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL的查询功能 Hive的本质是将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS + Hive分析数据底层的实现是MapReduce + 执行程序运行在Yar 阅读全文

posted @ 2024-01-30 12:56 停不下的时光阅读(22) 评论(0) 推荐(0) 编辑

Kafka

摘要： Kafka 概述 Kafka 是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。优点：解耦可恢复性缓冲灵活性 & 峰值处理能力 -> 削峰异步通信消息队列的两种模式：点对点：一对一，消费者主动拉取数据，消息收到后消息清除发布/订阅模式：一阅读全文

posted @ 2024-01-30 12:55 停不下的时光阅读(8) 评论(0) 推荐(0) 编辑

Maxwell

摘要： Maxwell 定义实时读取Mysql二进制日志，并生成JSON格式的消息。作为生产者发送给 kafka，kinesis 等原理把自己伪装成MySQL的一个slave，然后以slave的身份假装从MySQL(master)复制数据。安装下载、解压修改被监控数据库 /etc/my.cnf，阅读全文

posted @ 2024-01-30 12:55 停不下的时光阅读(29) 评论(0) 推荐(0) 编辑

DataX

摘要： DataX 什么是DataX DataX是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库（MySQL、Oracle）、HDFS、Hive、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX框架插件式 Reader：数据采集模块 Writer: Fram 阅读全文

posted @ 2024-01-30 12:54 停不下的时光阅读(27) 评论(0) 推荐(0) 编辑

Elastic Search

摘要： Elastic Search 下载 https://www.elastic.co/cn/downloads/elasticsearch # elasticsearch.yml ingest.geoip.downloader.enabled: false 也可以在jvm.options里设置启动内存，阅读全文

posted @ 2024-01-30 12:54 停不下的时光阅读(29) 评论(0) 推荐(0) 编辑

Flink

摘要： Flink Flink 主要特点事件驱动基于流的世界观：在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流分层API：越顶层越抽象，表达含义越简明，使用越方便；越底层越具体，表达能力越丰富，使用越灵活支持事件时间（event-time）和处理时间（阅读全文

posted @ 2024-01-30 12:53 停不下的时光阅读(47) 评论(0) 推荐(0) 编辑

Flume

摘要： Flume概述 https://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html Flume 定义 Flume 是 Cloudera 提供的一个高可用，高可靠，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活阅读全文

posted @ 2024-01-30 12:53 停不下的时光阅读(20) 评论(0) 推荐(0) 编辑

停不下的时光

学而不思则罔，思而不学则殆

公告