会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lowreed
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
6
下一页
2024年6月14日
dolphinscheduler独立集群部署
摘要: dolphinscheduler独立集群部署 1、上传解压 tar -xvf apache-dolphinscheduler-3.2.0-bin.tar.gz mv apache-dolphinscheduler-3.2.0-bin/ dolphinscheduler-3.2.0 2、配置mysql
阅读全文
posted @ 2024-06-14 20:02 low-reed
阅读(14)
评论(0)
推荐(0)
2024年6月3日
Flink SQL
摘要: Flink SQL 1、sql命令行 # 启动flink集群 yarn-seesion.sh -d # 进入sql命令行 sql-client.sh # 1、创建表,数据源时kafka CREATE TABLE students ( id STRING, name STRING, age INT,
阅读全文
posted @ 2024-06-03 19:13 low-reed
阅读(34)
评论(0)
推荐(0)
FLink状态与容错
摘要: Flink状态与容错 1、状态 之前的计算结果可以看作时状态,基于之前的结果进行计算可以称为有状态计算 2、checkpoint 可以定时将flink计算的状态持久化到hdfs中,如果任务执行失败,可以基于hdfs中保存到的状态恢复任务,保证之前的结果不丢失 1、开启checkpoint的方式 在代
阅读全文
posted @ 2024-06-03 19:11 low-reed
阅读(11)
评论(0)
推荐(0)
2024年6月2日
大数据技术之高频面试题
摘要: 大数据技术之高频面试题 第1章 核心技术 1.1 Linux&Shell 1.1.1 Linux常用高级命令 1.1.2 Shell常用工具及写过的脚本 1.1.3 Shell中单引号和双引号区别 1.2 Hadoop 1.2.1 Hadoop常用端口号 1.2.2 Hadoop配置文件 1.2.3
阅读全文
posted @ 2024-06-02 20:56 low-reed
阅读(76)
评论(0)
推荐(0)
2024年5月31日
Flink集群搭建
摘要: Flink集群搭建 1、独立集群 1、上传解压配置环境变量 # 解压 tar -xvf flink-1.15.2-bin-scala_2.12.tgz # 配置环境变量 vim /etc/profile export FLINK_HOME=/usr/local/soft/flink-1.15.2 e
阅读全文
posted @ 2024-05-31 19:20 low-reed
阅读(159)
评论(0)
推荐(0)
2024年5月27日
spark-sql
摘要: Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马,和代码里面设置是一样的,代码中优先级高 spark-s
阅读全文
posted @ 2024-05-27 20:11 low-reed
阅读(9)
评论(0)
推荐(0)
2024年5月26日
spark数据倾斜
摘要: 数据倾斜七种解决方案 使用Hive ETL预处理数据 过滤少数导致倾斜的key 提高shuffle操作的并行度(分区) 双重聚合 将reduce join转为map join 采样倾斜key并分拆join操作 使用随机前缀和扩容RDD进行join 1、使用Hive ETL预处理数据 方案适用场景:如
阅读全文
posted @ 2024-05-26 19:47 low-reed
阅读(45)
评论(0)
推荐(0)
2024年5月20日
EXISTS和IN的介绍
摘要: EXISTS和IN的介绍 1.exists exists返回的是true(空)和flase(非空) 对user表的每行数据逐条取出,每取一行,就判断exists后面的子语句的结果是否为空,是空,这行数据就不要,不是空,这行数据就留下. 如下: select * from A where exists
阅读全文
posted @ 2024-05-20 20:50 low-reed
阅读(7)
评论(0)
推荐(0)
hive sql练习
摘要: 蚂蚁森林植物申领统计 使用spark sql 完成以下作业 背景说明 下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name:user_low_carbon 字段名 字段描述 user_id 用户 data_dt 日期 low_carbon 减少碳排放(g) 蚂蚁森林植物换购表,
阅读全文
posted @ 2024-05-20 20:48 low-reed
阅读(21)
评论(0)
推荐(0)
2024年5月17日
Spark算子和RDD
摘要: shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区,这个过程称之为shuffle 注:spark的shuffle和mapreduce的shuffle原理是一样,都是要进行落盘 RDD RDD: 弹性的分布式数据集 弹性:RDD将来在计算的时候,其中的数据可以是很大,也可以是很
阅读全文
posted @ 2024-05-17 22:03 low-reed
阅读(16)
评论(0)
推荐(0)
1
2
3
4
5
6
下一页
公告