摘要:
Map FlatMap groupBy filter sample 根据指定的规则从数据集中抽取数据 val dataRDD = sparkContext.makeRDD(List( 1,2,3,4),1)// 抽取数据不放回(伯努利算法)// 伯努利算法:又叫 0、1 分布。例如扔硬币,要么正面, 阅读全文
摘要:
常见的三类范式 原文: 「数据库」常见的三类范式 (baidu.com) 想要弄明白常见的三类范式,需要先搞清楚几个基本概念。 1.概念 (1)范式:关系数据库中满足某一特定级别关系的集合。即:关系数据库中的关系是要需要满足一定要求的,满足不同的要求即为不同的范式。 (2)属性:对表格中的每一列人为 阅读全文
摘要:
1)把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文
摘要:
2.3.1 下载并解压 1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3)解压sqo 阅读全文
摘要:
可借助EZDML这款数据库设计工具,来辅助我们梳理复杂的业务表关系。 1)下载地址 http://www.ezdml.com/download_cn.html 2)使用说明 (1)新建模型 (2)命名模型 (3)点击图标,选中模型 (4)导入数据库 (5)配置数据库连接 (6)选择导入的表 (7)建 阅读全文
摘要:
2.1.1 安装包准备 1)卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉) [atguigu@hadoop102 software]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps 阅读全文
摘要:
数据清洗的目的是为了保证数据质量,包括数据的完整性、唯一性、一致性、合法性和权威性。数据清洗的结果是对各种脏数据进行对应的处理方式,从而得到标准的、干净的、连续的数据,提供给数据统计和数据挖掘使用。 解决数据的完整性问题: (1) 通过其他信息不全;(2) 通过前后数据不全;(3) 如果实在无法不全 阅读全文
摘要:
最主要的区别在于持久化只是将数据保存在 BlockManager 中,但是 RDD 的 lineage(血缘关系,依赖关系)是不变的。 但是 checkpoint 执行完之后,rdd 已经没有之前所谓的依赖 rdd了,而只有一个强行为其设置的 checkpointRDD,checkpoint 之后 阅读全文
摘要:
应用场景:当 spark 应用程序特别复杂,从初始的 RDD 开始到最后整个应用程序完成有很多的步骤,而且整个应用运行时间特别长,这种情况下就比较适合使用 checkpoint 功能。 原因:对于特别复杂的 Spark 应用,会出现某个反复使用的 RDD,即使之前持久化过但由于节点的故障导致数据丢失 阅读全文
摘要:
spark 非常重要的一个功能特性就是可以将 RDD 持久化在内存中。 调用 cache()和 persist()方法即可。cache()和 persist()的区别在于,cache()是 persist()的一种简化方式,cache()的底层就是调用 persist()的无参版本 persist( 阅读全文