02 2022 档案
数仓重点
摘要:第一章 数据建模 1.1 建模工具 PowerDesigner SQLYog EZDML 1.2 ODS层 Operation Data Store,原始数据层 ODS做了那些事? (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩(LZO),减少磁盘存储空间(例如:原始数据1
Flink (二)Flink运行时架构
摘要:第四章 Flink运行时架构 4.1 系统架构 4.1.1 整体构成 Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master), 负责管理调度,所以
Kafka Stream
摘要:第一章 概述 Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。 它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 1.1 Kafka Stream特点 Kafka
数据仓库(十)——ADS 层
摘要:建表说明 ADS层不涉及建模,建表根据具体需求而定。 第一章 访客主题 1.1 访客统计 该需求为访客综合统计,其中包含若干指标,以下为对每个指标的解释说明。 指标 说明 对应字段 访客数 统计访问人数 uv_count 页面停留时长 统计所有页面访问记录总时长,以秒为单位 duration_sec
数据仓库(四)——数据仓库系统
摘要:第一章 数仓搭建-ODS层 1)保持数据原貌不做任何修改,起到备份数据的作用。 2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。 3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。 4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景
Flink (一)概述+搭建
摘要:第一章 初识Flink Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前,Flink 已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入,为Flink 社区贡献了大量源码。如今 Flink 已被很多人认为是大数据实时处理的方向和未来,许
Elasticsearch(二)进阶、优化、面试题
摘要:第五章、Elasticsearch进阶 5.1 核心概念 索引Index 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新
SparkSQL
摘要:第一章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL SparkSQL 的前身是 Shark,给熟悉RDBMS 但又不理解 MapRe
Elasticsearch(一)入门
摘要:第一章、Elasticsearch概述 1.1 开篇 结构化数据 结构化数据 半结构化数据 1.2 技术选型 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash(也称为 ELK Stack)。
Spark Streaming
摘要:第一章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 是准实时(秒,分钟)级,微批次(时间)的数据处理架构。 Spark Streaming 用于流式数据的处理。Spar
Spark (三)案例实操
摘要:第零章、前言 在之前的学习中,我们已经学习了 Spark 的基础编程方式,接下来,我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求,所以在实现功能前,咱们必须先将数据准备好。 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用
Scala (四)模式匹配
摘要:一、模式匹配 Scala 中的模式匹配类似于 Java 中的 switch 语法 int i = 10 switch (i) { case 10 : System.out.println("10"); break; case 20 : System.out.println("20"); break;
Spark (二)核心编程
摘要:第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: RDD : 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 简单的分布式计模型架构: Driver将任务分发给多个Execut
Spark (一)概述、原理、入门
摘要:第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A