随笔分类 -  hadoop

记录工作中遇到的问题和知识点
spark sql - data skew tuning
摘要:原始sql的写法如下,可以跑成功但是跑了40分钟。 select user_id, site_id, cc_id from tbl_1 left join tbl_2 on tbl_1.id = tbl_2.id; 查看job details, 发现其中一个stage跑了40分钟,但是这个stage 阅读全文
posted @ 2025-07-07 17:01 dw2nn 阅读(4) 评论(0) 推荐(0)
如何查看以及修改hdfs副本?
摘要:We can change replica from 3 to 2 after the data is deprecated, to save storage. 1.在hadoop的hdfs中,查看文件或者目录的hdfs副本数量,可以使用如下命令 hdfs dfs -stat '%r' /path/ 阅读全文
posted @ 2024-05-20 11:34 dw2nn 阅读(1222) 评论(0) 推荐(0)
hdfs dfs -mkdir -p的使用
摘要:解释: hdfs dfs -mkdir 是Hadoop命令行中用于创建目录的命令。 -p 参数告诉 mkdir 命令创建所有不存在的父目录。 阅读全文
posted @ 2024-04-08 13:09 dw2nn