大数据技术 - 随笔分类 - MrSponge

实时数仓方案五花八门，实际落地如何选型和构建！（转载）

摘要：原文链接：https://cloud.tencent.com/developer/article/2167527 【作者介绍】王磊，阿里云 MVP，华院计算技术总监。著有：《图解 Spark 大数据快速分析实战》；《offer 来了：Java 面试核心知识点精讲（原理篇）》；《offer 来了：J 阅读全文

posted @ 2024-08-16 15:17 MrSponge 阅读(898) 评论(0) 推荐(0)

PySpark判断Hdfs文件路径是否存在

摘要：背景从ScalaSpark代码转PySpark代码，同时实现连续读多个文件，避免因某些路径不存在导致程序终止。在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado 阅读全文

posted @ 2023-11-07 15:52 MrSponge 阅读(511) 评论(0) 推荐(0)

Kafka常用命令

摘要：Kafka实操命令 kafka版本：scala2.11，kafka1.1.0 kafka_2.11-1.1.0.jar Kafka命令行操作 1）查看当前服务器中的所有topic kafka-topics.sh --zookeeper hadoop111:2181/kafka --list 2）创建阅读全文

posted @ 2023-11-06 17:36 MrSponge 阅读(342) 评论(0) 推荐(0)

通过Java编写Flume拦截器

摘要：首先要知道Flume中的Event是由Header + Body组成的。 Flume支持在运行时对Event进行修改或丢弃，可以通过拦截器来实现。Flume里面的拦截器是实现了 org.apache.flume.interceptor.Interceptor 接口的类。拦截器可以根据开发者的意图随意阅读全文

posted @ 2023-02-18 21:45 MrSponge 阅读(237) 评论(0) 推荐(0)

Flink安装部署

摘要：Flink安装部署 local本地模式-了解原理操作 1.下载安装包 https://archive.apache.org/dist/flink/ 2.上传flink-1.13.1-bin-scala_2.12.tgz到node1的指定目录 3.解压 tar -zxvf flink-1.13.1 阅读全文

posted @ 2023-01-09 15:50 MrSponge 阅读(837) 评论(0) 推荐(1)

ClickHouse入门

摘要：ClickHouse入门版本21.7.3.14 ClickHouse是列式存储数据库(DBMS)，主要用于在线分析处理查询(OLAP)。 ClickHouse对函数是大小写敏感的，不管是什么操作，还是区分大小写好点官方文档 1、ClickHouse的特点列式存储对于列的聚合，计数，求和等统计阅读全文

posted @ 2023-01-06 18:19 MrSponge 阅读(325) 评论(0) 推荐(0)

Sqoop 和 DataX的简单使用方法

摘要：# Sqoop **通过jdbc连接Mysql查看数据库列表** ~~~shell bin/sqoop list-databases --connect jdbc:mysql://hadoop101:3306/ --username root --password 1234 ~~~ ## 导入数据阅读全文

posted @ 2022-12-12 09:37 MrSponge 阅读(600) 评论(0) 推荐(0)

Flink TableAPI&SQL（二）

摘要：Flink TableAPI&SQL 学习至此结束（这是我根据B站尚硅谷教学视频自学的总结吧--能力有限）阅读全文

posted @ 2022-12-12 09:32 MrSponge 阅读(520) 评论(1) 推荐(0)

Flin TableAPI & SQL （一）

摘要：Flink TableAPI和SQL的基本运用介绍在Flink中，TableAPI 和 SQL 可以看作是一体的，TableAPI可以将环境中的数据转换成对应的一张表，或者将表里的转换输出到外部系统，然后可以执行SQL语句来进行一个查询和统计。 1、快速上手添加相关依赖： <dependenc 阅读全文

posted @ 2022-11-17 17:27 MrSponge 阅读(131) 评论(0) 推荐(0)

Hive的简单介绍与使用

摘要：hive入门 1. Hive概述 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 1.2 hive的本质 Hive本质：将HQL转化成MapRed 阅读全文

posted @ 2022-11-13 19:26 MrSponge 阅读(495) 评论(0) 推荐(0)

HDFS的简单介绍和应用

摘要：hdfs应用 1. hdfs概述 1.1 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 什么是hdfs H 阅读全文

posted @ 2022-11-12 22:02 MrSponge 阅读(829) 评论(0) 推荐(0)

关于Flink里的处理函数的简单介绍

摘要：Process Flink 提供了 8 个不同的处理函数：（1） ProcessFunction 最基本的处理函数，基于DataStream 直接调用.process()时作为参数传入。（2） KeyedProcessFunction 对流按键分区后的处理函数，基于 KeyedStream 调用阅读全文

posted @ 2022-11-11 21:27 MrSponge 阅读(95) 评论(0) 推荐(0)

大数据技术Flume框架详解

摘要：Flume的概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。高可用(HA) flume框架（故障转移机制）高可靠数据采集的可靠性分布式分布式集群搭建 Flume的作用最主要的作用：实时读取服务器本阅读全文

posted @ 2022-08-29 22:53 MrSponge 阅读(355) 评论(0) 推荐(0)

Mr-Sponge

道阻且长啊~~~

随笔分类 - 大数据技术