06 2013 档案

摘要:文件的压缩有两大好处:1、可以减少存储文件所需要的磁盘空间;2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时,这两大好处是相当重要的。 下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩,压缩后为/user/hadoop/text.gz 1 package com.hdfs; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.io.OutputStream; 6 import java.net.URI; 7 8 import or... 阅读全文
posted @ 2013-06-19 20:28 残剑_ 阅读(32691) 评论(1) 推荐(2) 编辑
摘要:在单个操作中处理一批文件,这是很常见的需求。比如说处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符在匹配多个文件时比较方便的,无需列举每个文件和目录来指定输入。hadoop为执行通配提供了两个FIleSystem方法:1 public FileStatus[] globStatus(Path pathPattern) throw IOException2 public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throw IOException glob... 阅读全文
posted @ 2013-06-18 22:04 残剑_ 阅读(8310) 评论(0) 推荐(0) 编辑
摘要:任何文件系统的一个重要特性都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能。FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。 FileStatus对象由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传进去。 例子:打印输出某个文件的所有信息 1 package com.hdfs; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.fs.FSDataI... 阅读全文
posted @ 2013-06-18 09:25 残剑_ 阅读(9423) 评论(2) 推荐(2) 编辑
摘要:HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。 对分HDFS中的文件操作主要涉及一下几个类: Configuration类:该类的对象封转了客户端或者服务器的配置。 FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态方法get获得该对象。 FSDataInputStream和FSDataOutputSt... 阅读全文
posted @ 2013-06-17 22:21 残剑_ 阅读(42533) 评论(1) 推荐(2) 编辑
摘要:今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了。集群信息如下:主机名Hadoop角色Hadoop jps命令结果Hadoop用户Hadoop安装目录masterMasterslavesNameNodeDataNodeJobTrackerTaskTrackerSecondaryNameNode创建相同的用户的组名:hadoop。安装hadoop-0.20.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop:hadoop/opt/hadoopslave1slavesDataNodeTaskTrackerslave2slavesDataNodeTask. 阅读全文
posted @ 2013-06-16 20:59 残剑_ 阅读(57155) 评论(3) 推荐(4) 编辑
摘要:今天把hadoop环境给搭起来了,在master上面启动hadoop后,jps查看进程,SecondaryNameNodeNameNode JpsDataNodeJobTrackerTaskTracker都没问题。但是去http://master:50070/dfshealth.jsp查看,live nodes为0。所以我到slave1和slave2上面去执行jps查看进程,结果都没有datanode进程,也就是说datanode没有启动成功,所以我就到logs里面去执行less hadoop-hadoop-datanode-slave2.log,发现报错的内容如下:2013-06-11 .. 阅读全文
posted @ 2013-06-11 02:42 残剑_ 阅读(8985) 评论(2) 推荐(1) 编辑
摘要:今天试着在Linux下面搭建java开发环境,现总结一下具体步骤。1、JDK的安装执行下面命令安装JDK(首先创建/opt/java目录)tar -xvf jdk-7u9-linux-i586.tar.gz -C /opt/javaln -s /opt/java/jdk1.7.0_09 /opt/java/jdk 创建一个链接vi /etc/frofile 设置环境变量export JAVA_HOME=/opt/java/jdkexprot PATH=$JAVA_HOME/bin:$PATH相当于重新设置PATH=JAVA_HOME/bin+PATH配置好之后要用命令source /etc.. 阅读全文
posted @ 2013-06-07 21:59 残剑_ 阅读(16486) 评论(0) 推荐(0) 编辑
摘要:查看系统是64位还是32位:0>$ uname -m 若是i386 或 i686 则是32位kernel x86_64 则是 64位kernel1、getconf LONG_BIT or getconf WORD_BIT例如:2、file /bin/ls例如:查看linux的版本: 阅读全文
posted @ 2013-06-07 20:22 残剑_ 阅读(437) 评论(1) 推荐(0) 编辑
摘要:java.net.ConnectException: Call to master/192.168.137.101:9001 failed on connection exception: java.net.ConnectException: Connection refusedat org.apache.hadoop.ipc.Client.wrapException(Client.java:1099)at org.apache.hadoop.ipc.Client.call(Client.java:1075)at org.apache.hadoop.ipc.RPC$Invoker.invoke 阅读全文
posted @ 2013-06-06 21:35 残剑_ 阅读(25134) 评论(0) 推荐(0) 编辑
摘要:一、Linux下常用命令:文件与目录操作basename:从文件名中去掉路径和扩展名cd:切换当前工作目录到指定目录chgrp:改变文件所属组chmod:改变文件的权限chown:改变文件的所有者和组cp:复制文件或目录dd:复制文件并转换文件内容file:确定文件类型find:在指定目录下查找文件并执行指定的操作ln:创建文件链接locate/slocate:快速定位文件的路径ls/dir/vdir:显示目录内容mkdir:创建目录mv:移动或重命名文件pwd:显示当前工作目录rename:重命名文件rm:删除文件或目录rmdir:删除空目录touch:修改文件的时间属性updatedb:创 阅读全文
posted @ 2013-06-05 16:14 残剑_ 阅读(3797) 评论(1) 推荐(1) 编辑
摘要:最近接触hadoop,需要在在Linux上面开发,所以我装了一个virtualbox虚拟机,在该虚拟机上面安装了一个centOS系统。linux系统是装好了,但是网络配置却另人头疼。我主要是想让宿主机和虚拟机能够互相访问。 然后我就百度了一下,根据百度的结果一步一步的配置。 安装virtualbox之后它会在宿主机上面安装一个虚拟网卡,如图 双击它,查看详情,信息如图所示 在虚拟机上面配置网络我使用的是host-only方式,当然也可以使用桥接的方式,至于他们的区别,网上很多。虚拟机上面主要是使用这块虚拟网卡作为网关。 进入centOS系统后主要有三个文件需要配置: 1、修改ip... 阅读全文
posted @ 2013-06-03 23:06 残剑_ 阅读(35485) 评论(8) 推荐(2) 编辑

点击右上角即可分享
微信分享提示