随笔分类 -  大数据

摘要:# 数据仓库概览 ## 1.基本概念 ### 1.数据仓库架构 数据仓库环境包括**操作型系统**和**数据仓库系统**两个部分。操作型系统的数据由各种形式的业务数据组成,这些数据经过**抽取**、**转换**和**装载(ETL)**过程进入数据仓库系统。 ![img](https://img202 阅读全文
posted @ 2023-08-02 14:43 Xi-iX 阅读(350) 评论(0) 推荐(3) 编辑
摘要:Spark Core 1. 概述 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的处理流程 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并 阅读全文
posted @ 2022-06-01 09:07 Xi-iX 阅读(764) 评论(0) 推荐(0) 编辑
摘要:Hive 1. 数据仓库概述 1.1 基本概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) 数仓专注分析 数据仓库本身并不“生产” 阅读全文
posted @ 2022-05-08 22:13 Xi-iX 阅读(920) 评论(0) 推荐(0) 编辑
摘要:Flume 1. 概述 Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume的作用 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS Flume的特性 有一个简单、灵活的基于流的数据流结构 具有负载均衡机 阅读全文
posted @ 2022-04-27 22:06 Xi-iX 阅读(1893) 评论(0) 推荐(1) 编辑
摘要:Hadoop Hadoop适合海量数据分布式存储和分布式计算 运行用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 1. 概述 1.1 简介 Hadoop核心组件 HDFS (分布式文件存储系统):解决海量数据存储 YARN(集群资源管理和任务调度框架):解决资源任务调度 MapRe 阅读全文
posted @ 2022-04-26 10:19 Xi-iX 阅读(1724) 评论(3) 推荐(2) 编辑
摘要:SQL 1. 概述 Structured Query Language 结构化查询语言 结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。 SQL语言使我们有能力访问数据库,并且SQL是一种ANSI( 阅读全文
posted @ 2022-04-22 22:44 Xi-iX 阅读(490) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示