上一页 1 ··· 10 11 12 13 14
摘要: HDFS简介HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个block,但实际上不用占用实际硬盘上的64MB,这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的bl 阅读全文
posted @ 2012-11-21 11:32 蜗牛123 阅读(327) 评论(0) 推荐(0) 编辑
摘要: hadoop mapreduce作业流程概论mapreduce的一个完整作业流程是怎么样的呢,相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰,下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html,是我看到的讲MapReduce最好的图。以Hadoop带的wordcount为例子(下面是启动行):hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后,该任务由JobT 阅读全文
posted @ 2012-11-21 11:31 蜗牛123 阅读(300) 评论(0) 推荐(0) 编辑
摘要: Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamin 阅读全文
posted @ 2012-11-20 22:21 蜗牛123 阅读(600) 评论(0) 推荐(0) 编辑
摘要: Debian Linux拥有强大的网络功能,所使用的网络配置文件与其他的Linux发行版也有所不同。1. 基本的网络命令1.1 ifconfig ifconfig命令用于显示当前主机中状态为“激活”的网络接口信息。 #ifocnfig eth0Link encap:Ethernet HWaddr 00:0c:29:b5:46:75 inet addr:202.193.51.211 Bcast:202.193.51.255 Mask:255.255.254.0 inet6 addr: fe80::20c:29ff:feb5:4675/64 Scope:Link UP BROADCAST ... 阅读全文
posted @ 2012-11-16 22:03 蜗牛123 阅读(1999) 评论(0) 推荐(0) 编辑
摘要: 今天打算安装VMwaretools 用到了以下几个命令apt-get、apt-cache、uname-a首先检查的Debian在安装时,根本就没有安装gcc、内核头文件也没有。执行步骤如下:1.在vmware的菜单中选择Vm->install vmware-tools,这个时候vmware就会把安装文件映射到你的cdrom。2.进入你的cdrom,点右键复制VMwareTools-5.5.0-18463.tar.gz到/tmp目录下,右键单击选择解压。当然这两步你也可以使用命令行方式,我对命令行不熟悉。详细的命令行方式,大家自己在网上就能搜到资料。3.安装c编译器(前提没有安装gcc,可 阅读全文
posted @ 2012-11-16 21:00 蜗牛123 阅读(3533) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14