2022 年 5月 31 日随笔档案 - CHANG_09

2022年5月31日

摘要： 1）把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文

posted @ 2022-05-31 19:34 CHANG_09 阅读(56) 评论(0) 推荐(0) 编辑

Sqoop安装

摘要： 2.3.1 下载并解压 1）下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2）上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3）解压sqo 阅读全文

posted @ 2022-05-31 19:29 CHANG_09 阅读(275) 评论(0) 推荐(0) 编辑

业务数据建模

摘要：可借助EZDML这款数据库设计工具，来辅助我们梳理复杂的业务表关系。 1）下载地址 http://www.ezdml.com/download_cn.html 2）使用说明（1）新建模型（2）命名模型（3）点击图标，选中模型（4）导入数据库（5）配置数据库连接（6）选择导入的表（7）建阅读全文

posted @ 2022-05-31 18:53 CHANG_09 阅读(203) 评论(0) 推荐(0) 编辑

MySQL安装

摘要： 2.1.1 安装包准备 1）卸载自带的Mysql-libs（如果之前安装过mysql，要全都卸载掉） [atguigu@hadoop102 software]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps 阅读全文

posted @ 2022-05-31 18:47 CHANG_09 阅读(38) 评论(0) 推荐(0) 编辑

怎么用spark做数据清洗

摘要：数据清洗的目的是为了保证数据质量，包括数据的完整性、唯一性、一致性、合法性和权威性。数据清洗的结果是对各种脏数据进行对应的处理方式，从而得到标准的、干净的、连续的数据，提供给数据统计和数据挖掘使用。解决数据的完整性问题： (1) 通过其他信息不全；(2) 通过前后数据不全；(3) 如果实在无法不全阅读全文

posted @ 2022-05-31 18:43 CHANG_09 阅读(238) 评论(0) 推荐(0) 编辑

Checkpoint 和持久化机制的区别

摘要：最主要的区别在于持久化只是将数据保存在 BlockManager 中，但是 RDD 的 lineage(血缘关系，依赖关系)是不变的。但是 checkpoint 执行完之后，rdd 已经没有之前所谓的依赖 rdd了，而只有一个强行为其设置的 checkpointRDD，checkpoint 之后阅读全文

posted @ 2022-05-31 18:42 CHANG_09 阅读(106) 评论(0) 推荐(0) 编辑

Checkpoint 检查点机制

摘要：应用场景：当 spark 应用程序特别复杂，从初始的 RDD 开始到最后整个应用程序完成有很多的步骤，而且整个应用运行时间特别长，这种情况下就比较适合使用 checkpoint 功能。原因：对于特别复杂的 Spark 应用，会出现某个反复使用的 RDD，即使之前持久化过但由于节点的故障导致数据丢失阅读全文

posted @ 2022-05-31 18:41 CHANG_09 阅读(175) 评论(0) 推荐(0) 编辑

RDD 持久化原理？

摘要： spark 非常重要的一个功能特性就是可以将 RDD 持久化在内存中。调用 cache()和 persist()方法即可。cache()和 persist()的区别在于，cache()是 persist()的一种简化方式，cache()的底层就是调用 persist()的无参版本 persist( 阅读全文

posted @ 2022-05-31 18:38 CHANG_09 阅读(72) 评论(0) 推荐(0) 编辑

Hadoop MR 和 Spark 的相同点和不同点？

摘要： Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用； Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，阅读全文

posted @ 2022-05-31 16:48 CHANG_09 阅读(177) 评论(0) 推荐(0) 编辑

hive 优化有哪些？

摘要： (1) 数据存储及压缩。针对hive中表的存储格式通常有orc和parquet，压缩格式一般使用snappy。相比与textfile格式表，orc 占有更少的存储。因为 hive 底层使用 MR 计算架构，数据流是 hdfs 到磁盘再到hdfs，而且会有很多次，所以使用 orc 数据格式和阅读全文

posted @ 2022-05-31 16:45 CHANG_09 阅读(168) 评论(0) 推荐(0) 编辑

HDFS NameNode Hadoop怎么分片

摘要： HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块阅读全文

posted @ 2022-05-31 16:25 CHANG_09 阅读(118) 评论(0) 推荐(0) 编辑

CHANG_09

公告