随笔分类 - hadoop
摘要:hadoop项目之求出每年二月的最高气温(Combiner优化) 一、项目结构 一、java实现随机生成日期和气温 package com.shujia.weather; import java.io.BufferedWriter; import java.io.FileWriter; import
阅读全文
摘要:Hadoop-MapReduce 一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 在线:实时数据处理 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他
阅读全文
摘要:Hadoop HA(高可用) 一、hadoop1.x的问题 1.单点故障 每个集群只有一个NameNode,NameNode存在单点故障(SPOF) 如果该计算机或者NameNode进程不可用,那么整个集群在NameNode重启或在另一台计算机上启动之前不可用 计划内的维护事件,例如NameNode
阅读全文
摘要:HDFS的读写流程——宏观与微观 HDFS:分布式文件系统,负责存放数据 分布式文件系统:就是将我们的数据放到多台电脑上存储。 **写数据:**就是将客户端上的数据上传到HDFS 宏观过程 客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端
阅读全文
摘要:Java操作HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.permission.FsPermission; im
阅读全文
摘要:Hadoop的由来、Block切分、进程详解 一、hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法) BigTable:Hbase Doug cutting 花费了两年的业余时间实现了前两篇论文,并重新命名为HDFS和
阅读全文
摘要:1、停止正在运行的集群 stop-all.sh 2、删除所有节点hadoop根目录中的tmp文件夹 3、在主节点(master)中hadoop的根目录中的bin目录下,重新格式化HDFS ./hdfs namenode -format 4、启动集群 start-all.sh
阅读全文
摘要:Hadoop集群搭建 一、准备 三台虚拟机:master01,node1,node2 时间同步 1.date命令查看三台虚拟机时间是否一致 2.不一致时间同步:ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/
阅读全文