2022 年 2月随笔档案 - 王陸

数仓重点

摘要：第一章数据建模 1.1 建模工具 PowerDesigner SQLYog EZDML 1.2 ODS层 Operation Data Store，原始数据层 ODS做了那些事？（1）保持数据原貌不做任何修改，起到备份数据的作用。（2）数据采用压缩（LZO），减少磁盘存储空间（例如：原始数据1

438

0

Flink （二）Flink运行时架构

摘要：第四章 Flink运行时架构 4.1 系统架构 4.1.1 整体构成 Flink 的运行时架构中，最重要的就是两大组件：作业管理器（JobManger）和任务管理器（TaskManager）。对于一个提交执行的作业，JobManager 是真正意义上的“管理者”（Master），负责管理调度，所以

1175

0

Kafka Stream

摘要：第一章概述 Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。Apache Kafka开源项目的一个组成部分。是一个功能强大，易于使用的库。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 1.1 Kafka Stream特点 Kafka

1040

0

数据仓库（十）——ADS 层

摘要：建表说明 ADS层不涉及建模，建表根据具体需求而定。第一章访客主题 1.1 访客统计该需求为访客综合统计，其中包含若干指标，以下为对每个指标的解释说明。指标说明对应字段访客数统计访问人数 uv_count 页面停留时长统计所有页面访问记录总时长，以秒为单位 duration_sec

1544

0

数据仓库（四）——数据仓库系统

摘要：第一章数仓搭建-ODS层 1）保持数据原貌不做任何修改，起到备份数据的作用。 2）数据采用LZO压缩，减少磁盘存储空间。100G数据可以压缩到10G以内。 3）创建分区表，防止后续的全表扫描，在企业开发中大量使用分区表。 4）创建外部表。在企业开发中，除了自己用的临时表，创建内部表外，绝大多数场景

859

0

Flink （一）概述+搭建

摘要：第一章初识Flink Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前，Flink 已经成为各大公司大数据实时处理的发力重点，特别是国内以阿里为代表的一众互联网大厂都在全力投入，为Flink 社区贡献了大量源码。如今 Flink 已被很多人认为是大数据实时处理的方向和未来，许

562

0

Elasticsearch（二）进阶、优化、面试题

摘要：第五章、Elasticsearch进阶 5.1 核心概念索引Index 一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新

195

0

SparkSQL

摘要：第一章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL SparkSQL 的前身是 Shark，给熟悉RDBMS 但又不理解 MapRe

318

0

Elasticsearch（一）入门

摘要：第一章、Elasticsearch概述 1.1 开篇结构化数据结构化数据半结构化数据 1.2 技术选型 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash（也称为 ELK Stack）。

312

0

1

Spark Streaming

摘要：第一章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 是准实时（秒，分钟）级，微批次（时间）的数据处理架构。 Spark Streaming 用于流式数据的处理。Spar

322

0

Spark （三）案例实操

摘要：第零章、前言在之前的学习中，我们已经学习了 Spark 的基础编程方式，接下来，我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求，所以在实现功能前，咱们必须先将数据准备好。上面的数据图是从数据文件中截取的一部分内容，表示为电商网站的用户行为数据，主要包含用

338

0

Scala （四）模式匹配

摘要：一、模式匹配 Scala 中的模式匹配类似于 Java 中的 switch 语法 int i = 10 switch (i) { case 10 : System.out.println("10"); break; case 20 : System.out.println("20"); break;

106

0

Spark （二）核心编程

摘要：第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量简单的分布式计模型架构： Driver将任务分发给多个Execut

174

0

Spark （一）概述、原理、入门

摘要：第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A

800

0

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

02 2022 档案

公告

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

最新评论