摘要:
数据仓库与hive hive——数据仓库建模工具之一 一、数据库、数据仓库 1.1 数据库 关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。 1 阅读全文
摘要:
Hive的基本知识与操作 Hive的基本概念 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接 阅读全文
摘要:
hadoop项目之求出每年二月的最高气温(Combiner优化) 一、项目结构 一、java实现随机生成日期和气温 package com.shujia.weather; import java.io.BufferedWriter; import java.io.FileWriter; import 阅读全文
摘要:
Hadoop-MapReduce 一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 在线:实时数据处理 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他 阅读全文
摘要:
Hadoop HA(高可用) 一、hadoop1.x的问题 1.单点故障 每个集群只有一个NameNode,NameNode存在单点故障(SPOF) 如果该计算机或者NameNode进程不可用,那么整个集群在NameNode重启或在另一台计算机上启动之前不可用 计划内的维护事件,例如NameNode 阅读全文
摘要:
HDFS的读写流程——宏观与微观 HDFS:分布式文件系统,负责存放数据 分布式文件系统:就是将我们的数据放到多台电脑上存储。 **写数据:**就是将客户端上的数据上传到HDFS 宏观过程 客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端 阅读全文
摘要:
Java操作HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.permission.FsPermission; im 阅读全文
摘要:
Hadoop的由来、Block切分、进程详解 一、hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法) BigTable:Hbase Doug cutting 花费了两年的业余时间实现了前两篇论文,并重新命名为HDFS和 阅读全文
摘要:
1、停止正在运行的集群 stop-all.sh 2、删除所有节点hadoop根目录中的tmp文件夹 3、在主节点(master)中hadoop的根目录中的bin目录下,重新格式化HDFS ./hdfs namenode -format 4、启动集群 start-all.sh 阅读全文
摘要:
Hadoop集群搭建 一、准备 三台虚拟机:master01,node1,node2 时间同步 1.date命令查看三台虚拟机时间是否一致 2.不一致时间同步:ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/ 阅读全文