随笔分类 -  大数据技术

摘要:原文链接:https://cloud.tencent.com/developer/article/2167527 【作者介绍】王磊,阿里云 MVP,华院计算技术总监。 著有:《图解 Spark 大数据快速分析实战》;《offer 来了:Java 面试核心知识点精讲(原理篇)》;《offer 来了:J 阅读全文
posted @ 2024-08-16 15:17 MrSponge 阅读(405) 评论(0) 推荐(0) 编辑
摘要:背景 从ScalaSpark代码转PySpark代码,同时实现连续读多个文件,避免因某些路径不存在导致程序终止。 在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado 阅读全文
posted @ 2023-11-07 15:52 MrSponge 阅读(416) 评论(0) 推荐(0) 编辑
摘要:Kafka实操命令 kafka版本:scala2.11,kafka1.1.0 kafka_2.11-1.1.0.jar Kafka命令行操作 1)查看当前服务器中的所有topic kafka-topics.sh --zookeeper hadoop111:2181/kafka --list 2)创建 阅读全文
posted @ 2023-11-06 17:36 MrSponge 阅读(298) 评论(0) 推荐(0) 编辑
摘要:首先要知道Flume中的Event是由Header + Body组成的。 Flume支持在运行时对Event进行修改或丢弃,可以通过拦截器来实现。Flume里面的拦截器是实现了 org.apache.flume.interceptor.Interceptor 接口的类。拦截器可以根据开发者的意图随意 阅读全文
posted @ 2023-02-18 21:45 MrSponge 阅读(191) 评论(0) 推荐(0) 编辑
摘要:Flink安装部署 local本地模式-了解 原理 操作 1.下载安装包 https://archive.apache.org/dist/flink/ 2.上传flink-1.13.1-bin-scala_2.12.tgz到node1的指定目录 3.解压 tar -zxvf flink-1.13.1 阅读全文
posted @ 2023-01-09 15:50 MrSponge 阅读(691) 评论(0) 推荐(1) 编辑
摘要:ClickHouse入门 版本21.7.3.14 ClickHouse是列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP)。 ClickHouse对函数是大小写敏感的,不管是什么操作,还是区分大小写好点 官方文档 1、ClickHouse的特点 列式存储 对于列的聚合,计数,求和等统计 阅读全文
posted @ 2023-01-06 18:19 MrSponge 阅读(270) 评论(0) 推荐(0) 编辑
摘要:# Sqoop **通过jdbc连接Mysql查看数据库列表** ~~~shell bin/sqoop list-databases --connect jdbc:mysql://hadoop101:3306/ --username root --password 1234 ~~~ ## 导入数据 阅读全文
posted @ 2022-12-12 09:37 MrSponge 阅读(511) 评论(0) 推荐(0) 编辑
摘要:Flink TableAPI&SQL 学习至此结束(这是我根据B站尚硅谷教学视频自学的总结吧--能力有限) 阅读全文
posted @ 2022-12-12 09:32 MrSponge 阅读(468) 评论(1) 推荐(0) 编辑
摘要:Flink TableAPI和SQL的基本运用介绍 在Flink中,TableAPI 和 SQL 可以看作是一体的,TableAPI可以将环境中的数据转换成对应的一张表,或者将表里的转换输出到外部系统,然后可以执行SQL语句来进行一个查询和统计。 1、 快速上手 添加相关依赖: <dependenc 阅读全文
posted @ 2022-11-17 17:27 MrSponge 阅读(91) 评论(0) 推荐(0) 编辑
摘要:hive入门 1. Hive概述 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 1.2 hive的本质 Hive本质:将HQL转化成MapRed 阅读全文
posted @ 2022-11-13 19:26 MrSponge 阅读(275) 评论(0) 推荐(0) 编辑
摘要:hdfs应用 1. hdfs概述 1.1 产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 什么是hdfs H 阅读全文
posted @ 2022-11-12 22:02 MrSponge 阅读(700) 评论(0) 推荐(0) 编辑
摘要:Process Flink 提供了 8 个不同的处理函数: (1) ProcessFunction 最基本的处理函数,基于DataStream 直接调用.process()时作为参数传入。 (2) KeyedProcessFunction 对流按键分区后的处理函数,基于 KeyedStream 调用 阅读全文
posted @ 2022-11-11 21:27 MrSponge 阅读(53) 评论(0) 推荐(0) 编辑
摘要:Flume的概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日 志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 高可用(HA) flume框架(故障转移机制) 高可靠 数据采集的可靠性 分布式 分布式集群搭建 Flume的作用 最主要的作用:实时读取服务器本 阅读全文
posted @ 2022-08-29 22:53 MrSponge 阅读(310) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示