2022年9月1日

Spark遇到的一些问题

摘要: 1.spark Dataframe的生命周期及执行 上述小测试是想保留value只保留(1,张三)这条数据,这条数据的来源是test1表,现对test1表进行操作(改为2,李四),同时希望value不变(还是1,张三),初始我认为value声明在前,而后面才对test1操作,不会影响value的,结 阅读全文

posted @ 2022-09-01 10:59 理想三旬_z 阅读(70) 评论(0) 推荐(0) 编辑

2022年8月25日

Flume原理简介 + 组件

摘要: 1.1 简介 Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中 阅读全文

posted @ 2022-08-25 14:08 理想三旬_z 阅读(230) 评论(0) 推荐(0) 编辑

2022年8月24日

8.总结Hive中的窗口函数以及anti join,semi join

摘要: 相关函数说明: OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前n行数据 n FOLLOWING:往后n行数据 UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UN 阅读全文

posted @ 2022-08-24 14:12 理想三旬_z 阅读(1307) 评论(0) 推荐(0) 编辑

2022年8月23日

“容器”的理解(对比虚拟机)

摘要: 首先介绍下“虚拟化”这一概念:是一种资源管理技术,它抽象了计算机的实体资源(包括内存、存储、服务器、网络等等),并将这些资源进行转换,最终呈现出来加以运用,用户可以实现利用更优的组合状态来使用(简单理解:就是给用户提供了自定义去使用这些计算机的实体资源) 最常见的两种虚拟化技术:虚拟机与Docker 阅读全文

posted @ 2022-08-23 14:04 理想三旬_z 阅读(270) 评论(0) 推荐(0) 编辑

2022年4月1日

数仓建模方法之范式建模、ER实体建模、维度建模

摘要: 范式建模(经典数仓 关系型数据库) 不多赘述,直接三范式: 第一范式: 保证每列的原子性。即数据库表中的所有字段值都是不可分解的原子值。 第二范式: 保证一张表只描述一件事情。即除主键外其他字段完全依赖于主键。 第三范式: 不可传递依赖。即表中的字段和主键直接对应不依靠其他中间字段,说白了就是,决定 阅读全文

posted @ 2022-04-01 16:36 理想三旬_z 阅读(3818) 评论(0) 推荐(0) 编辑

2022年3月29日

阿里云大数据之——DataWorks学习

摘要: 什么是DataWorks? 一个大数据开发治理平台,集数据集成,数据开发,数据地图,数据质量,数据服务等于一体,一站式开发管理的界面。 DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、云 阅读全文

posted @ 2022-03-29 17:53 理想三旬_z 阅读(882) 评论(0) 推荐(0) 编辑

2021年12月29日

spark算子练习

摘要: def main(args: Array[String]): Unit = { val session = SparkSession.builder().master("local[*]").appName("exam2").getOrCreate() import session.implicit 阅读全文

posted @ 2021-12-29 13:40 理想三旬_z 阅读(117) 评论(0) 推荐(0) 编辑

Centos7上搭建MongoDB

摘要: 1. 下载Mongodb https://www.mongodb.com/try/download/community 2.解压并移动到指定目录 tar -zxf mongodb-linux-x86_64-rhel70-3.6.23.tgz mv mongodb-linux-x86_64-rhel7 阅读全文

posted @ 2021-12-29 13:39 理想三旬_z 阅读(129) 评论(0) 推荐(0) 编辑

Centos7上搭建Redis

摘要: 一、安装redis 第一步:下载redis安装包 wget http://download.redis.io/releases/redis-4.0.6.tar.gz 第二步:解压 tar -zxvf redis-4.0.6.tar.gz 第三步:安装gcc依赖 yum install -y gcc 阅读全文

posted @ 2021-12-29 13:32 理想三旬_z 阅读(78) 评论(0) 推荐(0) 编辑

2021年12月21日

7.维度表与事实表的概念区分

摘要: 1.数据仓库与操作型数据库的区别 仓库的物理模型与常见的操作型数据库的物理模型有很大不同。最明显的区别是:操作型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,为了防止“garbage in,garbage out”,通常设计操作型数据库的都要遵循几个范式的约束,除非少数情况下为了性 阅读全文

posted @ 2021-12-21 22:34 理想三旬_z 阅读(4408) 评论(0) 推荐(0) 编辑

导航