2018年10月14日
摘要: 1. 引言 本篇主要讲述操作数据存储(ODS)系统产生的背景、定义、特点,以及它与数据仓库的区别。在前两篇,笔者介绍了什么是数据仓库?为什么需要数据仓库?数据仓库系统的体系结构是什么?因此可能在读者心里已经形成了企业数据存储的DB~DW两层体系结构的概念,但在实际应用中,并不总是这样,有时候我们可能 阅读全文
posted @ 2018-10-14 21:53 liangxb 阅读(7127) 评论(2) 推荐(0) 编辑
  2018年9月2日
摘要: 1. Load的使用 1.1本地在本地导入数据,本地数据不会删除(相当于复制) 1.2在hadoop中导入数据,hadoop上的数据被删除(相当于剪切) 2.Insert的使用 2.1将查询出来的结果插入到一个表中 2.2将查询出来的结果作为插入到表中的某个分区中(自动分区模式) 2.3多重插入 3 阅读全文
posted @ 2018-09-02 22:58 liangxb 阅读(288) 评论(0) 推荐(0) 编辑
  2018年8月23日
摘要: 前言 数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术,诚然,数据仓库以数据库为基础,但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同,Kimball说:"我们花了二十年的时间往数据库中加入数据,现在该是拿出来使用的时候了。" 摘自数据仓库工具箱:维度建 阅读全文
posted @ 2018-08-23 18:19 liangxb 阅读(7545) 评论(0) 推荐(0) 编辑
摘要: 企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级 阅读全文
posted @ 2018-08-23 18:02 liangxb 阅读(944) 评论(0) 推荐(0) 编辑
  2018年7月29日
摘要: Hadoop安装部署基本步骤: 1、安装jdk,配置环境变量。 jdk可以去网上自行下载,环境变量如下: 编辑 vim /etc/profile 文件,添加如下内容: export JAVA_HOME=/opt/java_environment/jdk1.7.0_80(填写自己的jdk安装路径) e 阅读全文
posted @ 2018-07-29 21:06 liangxb 阅读(861) 评论(0) 推荐(0) 编辑
  2018年7月24日
摘要: 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2018-07-24 21:33 liangxb 阅读(229) 评论(0) 推荐(1) 编辑
  2018年7月19日
摘要: 一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核 阅读全文
posted @ 2018-07-19 23:02 liangxb 阅读(1108) 评论(0) 推荐(0) 编辑
  2018年7月18日
摘要: 一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 阅读全文
posted @ 2018-07-18 22:46 liangxb 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: 阅读全文
posted @ 2018-07-18 21:29 liangxb 阅读(1680) 评论(0) 推荐(0) 编辑
  2018年6月10日
摘要: 一:简介 最近学习hadoop本地运行模式,在运行期间遇到一些问题,记录下来备用;以运行hadoop下wordcount为例子。 hadoop程序是在集群运行还是在本地运行取决于下面两个参数的设置,第一个参数用来设置mr程序要在yarn集群中执行,第二个参数设置yarn集群的主节点地址。 hadoo 阅读全文
posted @ 2018-06-10 09:54 liangxb 阅读(4032) 评论(0) 推荐(0) 编辑