上一页 1 2 3 4 5 6 ··· 13 下一页
摘要: 一、数据定义语言(DDL)概述及建表基础 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREAT 阅读全文
posted @ 2023-08-15 22:29 KongLong_cm 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库基础理论 1.1 概念 数据仓库(Data Warehouse):简称数仓,是一个用于存储分析报告的数据系统。目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 联机事务处理OLTP:操作型处理,主要针对具体业务对少量记录进行查询修改,传统的关系型数据库(RDBMS)作为数 阅读全文
posted @ 2023-08-12 22:21 KongLong_cm 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 一、Zookeeper概述 Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。 1.1. zookeeper的特点 1.2 应用场景 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.统一命名服务:在分布式环境 阅读全文
posted @ 2023-08-09 21:45 KongLong_cm 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 一、Kafka概述 1.1 定义 Kafka的定义:Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 1.2 消息队列 传统的消息队列的主要应用场景包括:缓存/消峰、解耦和异步通信。 消息队列的两种模式 点对点模式 消息/订阅模式 二、Kafka入门 2.1 Ka 阅读全文
posted @ 2023-08-09 16:41 KongLong_cm 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 一、概述 ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 1.1 快速上手 1.哈哈先从Idea上手,先去Idea中创建一个maven项目,添加maven依赖如下: <dependencies> <!-- 引入 Flink 相关依赖--> <dependenc 阅读全文
posted @ 2023-08-07 07:52 KongLong_cm 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 一、SparkSql概述 SparkSql是Spark的一个模块,用于处理海量结构化数据(注意是只能处理结构化数据)。 1.1 SparkSql和Hive的异同 1.2 SparkSql的数据抽象 1.3 SparkSession对象 SparkSession对象可以用于SparkSql编程作为入口 阅读全文
posted @ 2023-08-04 21:59 KongLong_cm 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 一、RDD 详解 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。 1.1 RDD的五大特性 1.RDD是有分区的; 2.RDD的方法会作用在其所有分区上; 3.RDD之间可 阅读全文
posted @ 2023-08-03 07:47 KongLong_cm 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 一、Spark框架概述 1.1 spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 弹性分布式数据集RDD:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。而这也是整 阅读全文
posted @ 2023-07-30 20:09 KongLong_cm 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 一、Yarn 资源调度器 Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 1.1 Yarn 基础架构 YARN 主要由 ResourceManager、NodeManager、A 阅读全文
posted @ 2023-07-28 19:02 KongLong_cm 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce的概述 1.1 MapReduce的核心思想 1.2 MapReduce的三类实例进程 1)MrAppMaster:负责整个程序的过程调度及状态协调。 2)MapTask:负责 Map 阶段的整个数据处理流程。 3)ReduceTask:负责 Reduce 阶段的整个数据处理流 阅读全文
posted @ 2023-07-18 17:04 KongLong_cm 阅读(25) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 13 下一页