liangxb - 博客园

2018年10月14日

摘要： 1. 引言本篇主要讲述操作数据存储（ODS）系统产生的背景、定义、特点，以及它与数据仓库的区别。在前两篇，笔者介绍了什么是数据仓库？为什么需要数据仓库？数据仓库系统的体系结构是什么？因此可能在读者心里已经形成了企业数据存储的DB~DW两层体系结构的概念，但在实际应用中，并不总是这样，有时候我们可能阅读全文

posted @ 2018-10-14 21:53 liangxb 阅读(7127) 评论(2) 推荐(0) 编辑

2018年9月2日

Hive学习笔记一

摘要： 1. Load的使用 1.1本地在本地导入数据,本地数据不会删除(相当于复制) 1.2在hadoop中导入数据,hadoop上的数据被删除(相当于剪切) 2.Insert的使用 2.1将查询出来的结果插入到一个表中 2.2将查询出来的结果作为插入到表中的某个分区中(自动分区模式) 2.3多重插入 3 阅读全文

posted @ 2018-09-02 22:58 liangxb 阅读(288) 评论(0) 推荐(0) 编辑

2018年8月23日

浅谈数据仓库和大数据

摘要：前言数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术，诚然，数据仓库以数据库为基础，但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同，Kimball说:"我们花了二十年的时间往数据库中加入数据，现在该是拿出来使用的时候了。" 摘自数据仓库工具箱:维度建阅读全文

posted @ 2018-08-23 18:19 liangxb 阅读(7545) 评论(0) 推荐(0) 编辑

数据仓库与数据集市的概念区别

摘要：企业从事数据仓库项目时，往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外，同时会向企业灌输许多概念，其中，数据仓库和数据集市是最常见的。由于术语定义不统一，另外各个供应商销售策略不一样，往往会给企业带来很大的混淆。最典型的问题是：到底是先上一个企业级的数据仓库呢？还是先上一个部门级阅读全文

posted @ 2018-08-23 18:02 liangxb 阅读(944) 评论(0) 推荐(0) 编辑

2018年7月29日

Hadoop+Hbas完全分布式安装部署

摘要： Hadoop安装部署基本步骤： 1、安装jdk，配置环境变量。 jdk可以去网上自行下载，环境变量如下：编辑 vim /etc/profile 文件，添加如下内容： export JAVA_HOME=/opt/java_environment/jdk1.7.0_80（填写自己的jdk安装路径） e 阅读全文

posted @ 2018-07-29 21:06 liangxb 阅读(861) 评论(0) 推荐(0) 编辑

2018年7月24日

Hive和Hbase的区别

摘要： 1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2018-07-24 21:33 liangxb 阅读(229) 评论(0) 推荐(1) 编辑

2018年7月19日

Flume原理解析【转】

摘要：一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核阅读全文

posted @ 2018-07-19 23:02 liangxb 阅读(1108) 评论(0) 推荐(0) 编辑

2018年7月18日

Hive - ORC 文件存储格式【转】

摘要：一、ORC File文件结构 ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个阅读全文

posted @ 2018-07-18 22:46 liangxb 阅读(766) 评论(0) 推荐(0) 编辑

大数据：Parquet文件存储格式【转】

摘要：一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。查询引擎: 阅读全文

posted @ 2018-07-18 21:29 liangxb 阅读(1680) 评论(0) 推荐(0) 编辑

2018年6月10日

hadoop本地运行模式调试

摘要：一：简介最近学习hadoop本地运行模式，在运行期间遇到一些问题，记录下来备用；以运行hadoop下wordcount为例子。 hadoop程序是在集群运行还是在本地运行取决于下面两个参数的设置，第一个参数用来设置mr程序要在yarn集群中执行，第二个参数设置yarn集群的主节点地址。 hadoo 阅读全文

posted @ 2018-06-10 09:54 liangxb 阅读(4032) 评论(0) 推荐(0) 编辑