QueryMarsBo

2018年6月20日

摘要： 1.Wordcount示例编写: MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总” 需求：在一堆给定的文本文件中统计输出每一个单词出阅读全文

posted @ 2018-06-20 14:15 QueryMarsBo 阅读(434) 评论(0) 推荐(0)

Hadoop_14_MapReduce框架结构及其运行流程

摘要： 1.MapReduce原理篇 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上 2.MapReduce程序结阅读全文

posted @ 2018-06-20 07:59 QueryMarsBo 阅读(193) 评论(0) 推荐(0)

2018年6月19日

Hadoop_13_Hadoop Shell脚本采集日志上传到HDFS

摘要：案例1：开发shell采集脚本 1.点击流日志每天都10T，在业务应用服务器上，需要准实时上传至数据仓库（Hadoop HDFS）上 2.一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力，避开高峰期。如果需要伪实时的上传，则采用定时上传的方式 3.技阅读全文

posted @ 2018-06-19 17:05 QueryMarsBo 阅读(1586) 评论(0) 推荐(0)

Hadoop_12_Hadoop 中的RPC框架演示

摘要： Hadoop中自己提供了一个RPC的框架。集群中各节点的通讯都使用了那个框架 1.服务端 1.1.业务接口：ClientNamenodeProtocol 1.2.业务接口实现类：MyNameNode 1.3.服务端类：将业务实现类发布为一个服务 2.客户端我们也可以在自己的项目中使用Hadoop的阅读全文

posted @ 2018-06-19 11:56 QueryMarsBo 阅读(362) 评论(0) 推荐(0)

Hadoop_11_HDFS的流式 API 操作

摘要：对于MapReduce等框架来说，需要有一套更底层的API来获取某个指定文件中的一部分数据，而不是一整个文件因此使用流的方式来操作 HDFS上的文件，可以实现读取指定偏移量范围的数据 1.客户端测试类代码： 2.流式上传文件： 3.流式下载文件： 4.流式读取指定长度的文件： hdfs支持随机定位阅读全文

posted @ 2018-06-19 10:01 QueryMarsBo 阅读(1077) 评论(0) 推荐(0)

2018年6月18日

Hadoop_10_HDFS 的 DataNode工作机制

摘要： 1.DataNode的工作机制: 1、DataNode工作职责：存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息（通过心跳信息上报）（这点很重要，因为，当集群中发生某些block副本失效时，集群如何恢复block初始副本数量的问题） 2.配置文件: 2.DataNod 阅读全文

posted @ 2018-06-18 19:14 QueryMarsBo 阅读(1164) 评论(0) 推荐(0)

2018年6月17日

Hadoop_09_HDFS 的 NameNode工作机制

摘要：理解NameNode的工作机制尤其是元数据管理机制，以增强对HDFS工作原理的理解，及培养hadoop集群运营中“性能调优” “NameNode”故障问题的分析解决能力 1.NameNode职责： Hadoop集群中有两种节点，一种是NameNode，还有一种是DataNode；其中DataNode 阅读全文

posted @ 2018-06-17 19:22 QueryMarsBo 阅读(1066) 评论(0) 推荐(0)

Hadoop_08_客户端向HDFS读写（上传）数据流程

摘要： 1.HDFS的工作机制： 2.HDFS的写数据流程： 2.1.概述客户端要向HDFS写数据，首先跟Namenode通信以确认可以写文件并获得接收文件block的datanode(切块在客户端进行)，然后客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datano 阅读全文

posted @ 2018-06-17 12:32 QueryMarsBo 阅读(3280) 评论(0) 推荐(1)

Hadoop_07_HDFS的Java API 操作

摘要：通过Java API来访问HDFS 1.Windows上配置环境变量解压Hadoop，然后把Hadoop的根目录配置到HADOOP_HOME环境变量里面然后把HADOOP_HOME/lib和HADOOP_HOME/bin配置到path里面 2.替换bin目录将官网下载的Hadoop目录下面的b 阅读全文

posted @ 2018-06-17 11:19 QueryMarsBo 阅读(303) 评论(0) 推荐(0)

Hadoop_06_Hadoop的HDFS的概念和特性

摘要： 1.HDFS的概念和特性 1.1. 首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件 1.2. 它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；重要特性如下：（1）HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( d 阅读全文

posted @ 2018-06-17 09:05 QueryMarsBo 阅读(271) 评论(0) 推荐(0)

公告