小丁子

2015年4月14日

摘要： MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTrac... 阅读全文

posted @ 2015-04-14 07:09 小丁子阅读(8884) 评论(0) 推荐(1) 编辑

2015年4月8日

rpc,客户端与NameNode通信的过程

摘要：远程过程:java进程.即一个java进程调用另外一个java进程中对象的方法.调用方称作客户端(client),被调用方称作服务端(server).rpc的通信在java中表现为客户端去调用服务端对象中的方法.RPC通信就是cs结构的通信.client端会知道服务端被调用对象的接口.RPC是had... 阅读全文

posted @ 2015-04-08 00:03 小丁子阅读(1620) 评论(0) 推荐(0) 编辑

2015年4月4日

小文件的解决方案

摘要：小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，每一个object占用150 bytes的内存空间。所以，如果有10million个文件，每一个文件对应一个... 阅读全文

posted @ 2015-04-04 10:43 小丁子阅读(513) 评论(0) 推荐(0) 编辑

hadoop hdfs的java操作

摘要：访问hdfs上的文件并写出到输出台 /** * 访问hdfs上的文件并写出到输出台 * @param args */ public static void main(String[] args) { try { //将hdfs格式... 阅读全文

posted @ 2015-04-04 08:49 小丁子阅读(382) 评论(0) 推荐(0) 编辑

2015年3月23日

HDFS的shell操作

摘要： bin/hadoop命令操作:namenode -format格式化文件系统fs(缩写:FileSystem)运行一个文件系统的用户客户端bin/hadoop fs常用命令操作: -ls hdfs路径:查看hdfs结构信息. -lsr hdfs路径递归显示(list status recur... 阅读全文

posted @ 2015-03-23 00:20 小丁子阅读(438) 评论(0) 推荐(0) 编辑

2015年3月22日

HDFS体系结构:(Distributed File System)

摘要：分布式系统的大概图服务器越来越多,客户端对服务器的管理就会越来越复杂,客户端如果是我们用户,就要去记住大量的ip. 对用户而言访问透明的就是分布式文件系统. 分布式文件系统最大的特点:数据存储在多台机器上,但是对用户透明. 为什么要出现分布式文件系统? ... 阅读全文

posted @ 2015-03-22 23:13 小丁子阅读(689) 评论(0) 推荐(0) 编辑

2015年3月21日

hadoop-1.1.2集群搭建

摘要： Hadoop安装分为三种不同模式: 本地模式:hadoop在运行时,不使用hdfs,而是使用linux操作系统的文件系统.(默认hadoop就是本地模式) 伪分布模式:在一个节点上运行hadoop(指的是hadoop的各个进程都是在我们的一个节点上都是开启的).hadoop的"运行机制"和集... 阅读全文

posted @ 2015-03-21 01:16 小丁子阅读(776) 评论(0) 推荐(0) 编辑

2015年3月17日

Hadoop入门概念

摘要： Hadoop作者:DongCutting. 受Google三篇论文的启发. 版本: Apache:官方版本 Cloudera:官方版本的封装,优化,打很多patch,商业版本 HortonWorks:基于apache的版本进行了集成hadoop是什么?　... 阅读全文

posted @ 2015-03-17 22:47 小丁子阅读(11464) 评论(1) 推荐(1) 编辑

公告