摘要: MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTrac... 阅读全文
posted @ 2015-04-14 07:09 小丁子 阅读(8884) 评论(0) 推荐(1) 编辑
摘要: 远程过程:java进程.即一个java进程调用另外一个java进程中对象的方法.调用方称作客户端(client),被调用方称作服务端(server).rpc的通信在java中表现为客户端去调用服务端对象中的方法.RPC通信就是cs结构的通信.client端会知道服务端被调用对象的接口.RPC是had... 阅读全文
posted @ 2015-04-08 00:03 小丁子 阅读(1620) 评论(0) 推荐(0) 编辑
摘要: 小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。所以,如果有10million个文件,每一个文件对应一个... 阅读全文
posted @ 2015-04-04 10:43 小丁子 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 访问hdfs上的文件并写出到输出台 /** * 访问hdfs上的文件并写出到输出台 * @param args */ public static void main(String[] args) { try { //将hdfs格式... 阅读全文
posted @ 2015-04-04 08:49 小丁子 阅读(382) 评论(0) 推荐(0) 编辑
摘要: bin/hadoop命令操作:namenode -format格式化文件系统fs(缩写:FileSystem)运行一个文件系统的用户客户端bin/hadoop fs常用命令操作: -ls hdfs路径:查看hdfs结构信息. -lsr hdfs路径 递归显示(list status recur... 阅读全文
posted @ 2015-03-23 00:20 小丁子 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 分布式系统的大概图 服务器越来越多,客户端对服务器的管理就会越来越复杂,客户端如果是我们用户,就要去记住大量的ip. 对用户而言访问透明的就是分布式文件系统. 分布式文件系统最大的特点:数据存储在多台机器上,但是对用户透明. 为什么要出现分布式文件系统? ... 阅读全文
posted @ 2015-03-22 23:13 小丁子 阅读(689) 评论(0) 推荐(0) 编辑
摘要: Hadoop安装分为三种不同模式: 本地模式:hadoop在运行时,不使用hdfs,而是使用linux操作系统的文件系统.(默认hadoop就是本地模式) 伪分布模式:在一个节点上运行hadoop(指的是hadoop的各个进程都是在我们的一个节点上都是开启的).hadoop的"运行机制"和集... 阅读全文
posted @ 2015-03-21 01:16 小丁子 阅读(776) 评论(0) 推荐(0) 编辑
摘要: Hadoop作者:DongCutting. 受Google三篇论文的启发. 版本: Apache:官方版本 Cloudera:官方版本的封装,优化,打很多patch,商业版本 HortonWorks:基于apache的版本进行了集成hadoop是什么? ... 阅读全文
posted @ 2015-03-17 22:47 小丁子 阅读(11464) 评论(1) 推荐(1) 编辑