博客园 首页 私信博主 显示目录 隐藏目录 管理 动画
摘要: 1)把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文
posted @ 2022-05-31 19:34 CHANG_09 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 2.3.1 下载并解压 1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3)解压sqo 阅读全文
posted @ 2022-05-31 19:29 CHANG_09 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 可借助EZDML这款数据库设计工具,来辅助我们梳理复杂的业务表关系。 1)下载地址 http://www.ezdml.com/download_cn.html 2)使用说明 (1)新建模型 (2)命名模型 (3)点击图标,选中模型 (4)导入数据库 (5)配置数据库连接 (6)选择导入的表 (7)建 阅读全文
posted @ 2022-05-31 18:53 CHANG_09 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 2.1.1 安装包准备 1)卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉) [atguigu@hadoop102 software]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps 阅读全文
posted @ 2022-05-31 18:47 CHANG_09 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 数据清洗的目的是为了保证数据质量,包括数据的完整性、唯一性、一致性、合法性和权威性。数据清洗的结果是对各种脏数据进行对应的处理方式,从而得到标准的、干净的、连续的数据,提供给数据统计和数据挖掘使用。 解决数据的完整性问题: (1) 通过其他信息不全;(2) 通过前后数据不全;(3) 如果实在无法不全 阅读全文
posted @ 2022-05-31 18:43 CHANG_09 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 最主要的区别在于持久化只是将数据保存在 BlockManager 中,但是 RDD 的 lineage(血缘关系,依赖关系)是不变的。 但是 checkpoint 执行完之后,rdd 已经没有之前所谓的依赖 rdd了,而只有一个强行为其设置的 checkpointRDD,checkpoint 之后 阅读全文
posted @ 2022-05-31 18:42 CHANG_09 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 应用场景:当 spark 应用程序特别复杂,从初始的 RDD 开始到最后整个应用程序完成有很多的步骤,而且整个应用运行时间特别长,这种情况下就比较适合使用 checkpoint 功能。 原因:对于特别复杂的 Spark 应用,会出现某个反复使用的 RDD,即使之前持久化过但由于节点的故障导致数据丢失 阅读全文
posted @ 2022-05-31 18:41 CHANG_09 阅读(175) 评论(0) 推荐(0) 编辑
摘要: spark 非常重要的一个功能特性就是可以将 RDD 持久化在内存中。 调用 cache()和 persist()方法即可。cache()和 persist()的区别在于,cache()是 persist()的一种简化方式,cache()的底层就是调用 persist()的无参版本 persist( 阅读全文
posted @ 2022-05-31 18:38 CHANG_09 阅读(72) 评论(0) 推荐(0) 编辑
摘要: Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型, 阅读全文
posted @ 2022-05-31 16:48 CHANG_09 阅读(177) 评论(0) 推荐(0) 编辑
摘要: (1) 数据存储及压缩。 针对hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。 相比与textfile格式表,orc 占有更少的存储。 因为 hive 底层使用 MR 计算架构,数据流是 hdfs 到磁盘再到hdfs,而且会有很多次, 所以使用 orc 数据格式和 阅读全文
posted @ 2022-05-31 16:45 CHANG_09 阅读(168) 评论(0) 推荐(0) 编辑
摘要: HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块 阅读全文
posted @ 2022-05-31 16:25 CHANG_09 阅读(118) 评论(0) 推荐(0) 编辑