摘要:
Data Vault 简介 Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求。 多年来,商业智能(BI)项目一直并将继续在瀑布模型下运行。它是由每个阶段的长时间延伸的序列定义的,该序列需要 阅读全文
摘要:
一、数据仓库的相关概念 1.什么是数据仓库 数据仓库一种面向分析的环境,是一种把相关的各种数据转换成有商业价值的信息的技术。 数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更 阅读全文
摘要:
yarn-site.xml 配置介绍yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度看,最小值 阅读全文
摘要:
1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑 阅读全文
摘要:
什么是Flink Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。 Flink特性 支持高吞吐、低延迟、高性能的流式数据处理,而不是用批处理模拟流式处理。 支持多种时间窗口,如事件时间窗口、处理时 阅读全文
摘要:
合理设置队列名mapreduce.job.queuename设置队列名map读取时进行小文件整合 mapreduce中map的个数和两个有关,一个是文件的个数,一个是大小,默认split是128M, 如果一个文件大于128M,例如129M,那么会有两个map,一个是128M,一个是1M。又例如有10 阅读全文
摘要:
目标 目标 本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。 本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。 概述 公平调度是一个分配资源给所有application的方法,平均来看,是随着时间的进展平等分享资源的 阅读全文
摘要:
Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。 Lucene 可能是目前存在的,不论开源还是私有的,拥有最先进,高性能和全功能搜索引擎功能的库。但是 Lucene 仅仅只是一个库。为了利用它,你需要编写 Java 程序,并在你的 阅读全文
摘要:
描述:最近遇到了一个问题,在mysql中如何完成节点下的所有节点或节点上的所有父节点的查询? 在Oracle中我们知道有一个Hierarchical Queries可以通过CONNECT BY来查询,但是,在MySQL中还没有对应的函数!!! 下面给出一个function来完成的方法 下面是sql脚 阅读全文
摘要:
介绍 大家都知道利用 .append 和 .pop 方法,我们可以把列表当作栈或者队列来用(比如,把 append 和 pop(0) 合起来用,就能模拟栈的“先进先出”的特点)。但是删除列表的第一个元素(抑或是在第一个元素之前添加一个 元素)之类的操作是很耗时的,因为这些操作会牵扯到移动列表里的所有 阅读全文