随笔分类 - 大数据
摘要:# 数据仓库概览 ## 1.基本概念 ### 1.数据仓库架构 数据仓库环境包括**操作型系统**和**数据仓库系统**两个部分。操作型系统的数据由各种形式的业务数据组成,这些数据经过**抽取**、**转换**和**装载(ETL)**过程进入数据仓库系统。 ,是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) 数仓专注分析 数据仓库本身并不“生产”
阅读全文
摘要:Flume 1. 概述 Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume的作用 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS Flume的特性 有一个简单、灵活的基于流的数据流结构 具有负载均衡机
阅读全文
摘要:Hadoop Hadoop适合海量数据分布式存储和分布式计算 运行用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 1. 概述 1.1 简介 Hadoop核心组件 HDFS (分布式文件存储系统):解决海量数据存储 YARN(集群资源管理和任务调度框架):解决资源任务调度 MapRe
阅读全文
摘要:SQL 1. 概述 Structured Query Language 结构化查询语言 结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。 SQL语言使我们有能力访问数据库,并且SQL是一种ANSI(
阅读全文