low-reed - 博客园

2024年6月14日

摘要： dolphinscheduler独立集群部署 1、上传解压 tar -xvf apache-dolphinscheduler-3.2.0-bin.tar.gz mv apache-dolphinscheduler-3.2.0-bin/ dolphinscheduler-3.2.0 2、配置mysql 阅读全文

posted @ 2024-06-14 20:02 low-reed 阅读(62) 评论(0) 推荐(0)

2024年6月3日

Flink SQL

摘要： Flink SQL 1、sql命令行 # 启动flink集群 yarn-seesion.sh -d # 进入sql命令行 sql-client.sh # 1、创建表，数据源时kafka CREATE TABLE students ( id STRING, name STRING, age INT, 阅读全文

posted @ 2024-06-03 19:13 low-reed 阅读(106) 评论(0) 推荐(0)

FLink状态与容错

摘要： Flink状态与容错 1、状态之前的计算结果可以看作时状态，基于之前的结果进行计算可以称为有状态计算 2、checkpoint 可以定时将flink计算的状态持久化到hdfs中，如果任务执行失败，可以基于hdfs中保存到的状态恢复任务，保证之前的结果不丢失 1、开启checkpoint的方式在代阅读全文

posted @ 2024-06-03 19:11 low-reed 阅读(70) 评论(0) 推荐(0)

2024年6月2日

大数据技术之高频面试题

摘要：大数据技术之高频面试题第1章核心技术 1.1 Linux&Shell 1.1.1 Linux常用高级命令 1.1.2 Shell常用工具及写过的脚本 1.1.3 Shell中单引号和双引号区别 1.2 Hadoop 1.2.1 Hadoop常用端口号 1.2.2 Hadoop配置文件 1.2.3 阅读全文

posted @ 2024-06-02 20:56 low-reed 阅读(113) 评论(0) 推荐(0)

2024年5月31日

Flink集群搭建

摘要： Flink集群搭建 1、独立集群 1、上传解压配置环境变量 # 解压 tar -xvf flink-1.15.2-bin-scala_2.12.tgz # 配置环境变量 vim /etc/profile export FLINK_HOME=/usr/local/soft/flink-1.15.2 e 阅读全文

posted @ 2024-05-31 19:20 low-reed 阅读(215) 评论(0) 推荐(0)

2024年5月27日

spark-sql

摘要： Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马，和代码里面设置是一样的，代码中优先级高 spark-s 阅读全文

posted @ 2024-05-27 20:11 low-reed 阅读(43) 评论(0) 推荐(0)

2024年5月26日

spark数据倾斜

摘要：数据倾斜七种解决方案使用Hive ETL预处理数据过滤少数导致倾斜的key 提高shuffle操作的并行度（分区）双重聚合将reduce join转为map join 采样倾斜key并分拆join操作使用随机前缀和扩容RDD进行join 1、使用Hive ETL预处理数据方案适用场景:如阅读全文

posted @ 2024-05-26 19:47 low-reed 阅读(122) 评论(0) 推荐(0)

2024年5月20日

EXISTS和IN的介绍

摘要： EXISTS和IN的介绍 1.exists exists返回的是true(空)和flase(非空) 对user表的每行数据逐条取出,每取一行,就判断exists后面的子语句的结果是否为空,是空,这行数据就不要,不是空,这行数据就留下. 如下： select * from A where exists 阅读全文

posted @ 2024-05-20 20:50 low-reed 阅读(33) 评论(0) 推荐(0)

hive sql练习

摘要：蚂蚁森林植物申领统计使用spark sql 完成以下作业背景说明下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name：user_low_carbon 字段名字段描述 user_id 用户 data_dt 日期 low_carbon 减少碳排放（g）蚂蚁森林植物换购表，阅读全文

posted @ 2024-05-20 20:48 low-reed 阅读(40) 评论(0) 推荐(0)

2024年5月17日

Spark算子和RDD

摘要： shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区，这个过程称之为shuffle 注：spark的shuffle和mapreduce的shuffle原理是一样，都是要进行落盘 RDD RDD: 弹性的分布式数据集弹性：RDD将来在计算的时候，其中的数据可以是很大，也可以是很阅读全文

posted @ 2024-05-17 22:03 low-reed 阅读(45) 评论(0) 推荐(0)

lowreed

公告