02 2019 档案
摘要:在安装Hive时,一定要在该机器上添加了hadoop服务。 1. 下载并解压文件 2. 修改环境变量 编辑/etc/profile文件在其末尾添加如下内容: 3. 检测Hive是否安装成功,显示版本则表示安装成功 4. 修改配置文件,复制hive env.sh.template,为hive env.
阅读全文
摘要:"一、Hive概念" "二、为什么要是用Hive" "三、Hive优缺点" "四、hive架构" 一、Hive概念 Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在Hadoop上的数据仓库基础架构。作为Hadoopd的一个数据仓库的工具,
阅读全文
摘要:"一、HDFS概念" "二、HDFS优缺点" "三、HDFS如何存储" 一、HDFS概念 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服
阅读全文
摘要:"一、MapReduce简介" "二、MapReduce并行处理的基本过程" "三、MapReduce实际处理流程" "四、一个job的运行流程" 一、MapReduce简介 MapReduce是一种并行可扩展计算模型,并且有较好的容错性,是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻
阅读全文
摘要:一.数据仓库概念 将多数据源中的数据整合一起,进行数据分析,此时数据仓库对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。时效性T+1. 二.数据仓库的特点 主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统
阅读全文
摘要:一、MapReduce 原理 MapReduce 是一种变成模式,用于大规模的数据集的分布式运算。通俗的将就是会将任务分给不同的机器做完,然后在收集汇总。 MapReduce有两个核心:Map,Reduce,它们分别单独计算任务,每个机器尽量计算自己hdfs内部的保存信息,Reduce则将计算结果汇
阅读全文