文章分类 -  hadoop学习

摘要:Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Configuration conf); 该类封装了几乎所有的文件操作,例如mkdir,delete等。综上基本上可以得出操作文件的程序库框架:operator(){ 得到Configuration对象 得到FileSys 阅读全文
posted @ 2014-04-09 15:01 杨博客 阅读(1669) 评论(0) 推荐(0) 编辑
摘要:windows下使用Eclipse运行MapReduce程序出错: Failed to set...在windows下用Eclipse运行MapReduce程序会报错:12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable12/04/24 15:32:44 ERROR security.UserGroupInformation: Privil... 阅读全文
posted @ 2014-04-02 10:56 杨博客 阅读(186) 评论(0) 推荐(0) 编辑
摘要:一、用户命令 1、archive命令(1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名和位置信息。(2).如何创建archive? 用法:hadoop archive -archiveName NAME * 命令选项: -archiveName NAME 要创建的档案的名字。 src 源文件. 阅读全文
posted @ 2014-04-01 11:46 杨博客 阅读(105) 评论(0) 推荐(0) 编辑
摘要:dfs.name.dirDetermines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy.这个参数用于确定将HDFS文件系统的元信息保存在什么目录下。如果这个参数设置为多个目录,那么这些目录下都保存着元信息的多个备份。如: 阅读全文
posted @ 2014-04-01 10:47 杨博客 阅读(1141) 评论(0) 推荐(0) 编辑
摘要:linux之cp/scp命令+scp命令详解参见http://www.cnblogs.com/hitwtx/archive/2011/11/16/2251254.html名称:cp使用权限:所有使用者使用方式:cp [options] source destcp [options] source... directory说明:将一个档案拷贝至另一档案,或将数个档案拷贝至另一目录。把计-a 尽可能将档案状态、权限等资料都照原状予以复制。-r 若 source 中含有目录名,则将目录下之档案亦皆依序拷贝至目的地。-f 若目的地已经有相同档名的档案存在,则在复制前先予以删除再行复制。范例:将档案 a 阅读全文
posted @ 2014-04-01 10:46 杨博客 阅读(145) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示