随笔分类 - HDFS
摘要:Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。 1. 查看文件列表查看hdfs中/user/admin/hdfs目录下的文件。a. 进入HADOOP_HOME目录。b. 执行sh bin/hadoop fs -ls /user/admin/hdfs查看hdfs中/user/admin/hdfs目录下的所有文件(包括子目录下的文件)。a. 进入HADOOP_HOME目录。b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs 2. 创建文件目录查看hdfs中/user/admin/hdfs目录下再新建一个叫做newDi
阅读全文
摘要:1.用haddop提供的C API to HDFS来实现文件写入到HDFS中。过程中主要是在配置环境花了点时间参考官网:http://hadoop.apache.org/common/docs/r0.20.203.0/libhdfs.html不用重新编译直接用$HADOOP_HOME/c++/Linux-Linux-amd64-64/lib即可,若要编译libhdfs,在hadoop顶层目录运行:ant compile-c++-libhdfs -Dislibhdfs=trueAPI主要可以去hadoop软件包解压目录中查看hdfs.h定义的一些已实现的函数一门语言的初学入门例子,一般都是“he
阅读全文
摘要:原文见:http://nubetech.co/accessing-hdfs-over-ftp这个程序是通过hdfs的9000端口访问的。听说还有hadoop自己的拓展包,需要重新编译hadoop。有机会的话安装一次来对比一下效率。下载压缩包:hdfs-over-ftp-0.20.0.tar.gz(我的hadoop是0.20.2)1.解压之后在目录下执行./register-user.sh username password >> users.conf这会在users.conf中生成新的ftp账户配置。废话一句,xxxx.homedirectory=/,这里的/就是你的hadoop的
阅读全文
摘要:什么是Hadoop?Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是从google MapReduce和Google文件系统的论文获得的灵感。Hadoop是Apache的一线项目,开发和实用来自世界各地的社区,Yahoo!是目前 为止最大的贡献者,并且Yahoo广泛使用它在搜索业务和广告业务上。IBM和Google的联合就是使用的Hadoop,为大学的课程提供分布式计算。 Hadoop的创始人是Doug Cutting(目前在yahoo工作),关于hadoop的命
阅读全文
摘要:高可用性、高性能、能随机读写、快速故障恢复、数据快照、回滚等特性。hadoop dfs 可被看做一个可靠的、随时可扩展的“磁盘”。log structrue filesystem。特别感谢 hlfs开发起源不能不提到淘宝的杨志峰和其团队几位未曾谋面的朋友,他们在阿里云曾借鉴log-structured file system公开论文开发过一个标准的log structrue filesystem (轩辕系统)原来设想用于虚拟机存储,但很可惜由于种种原因项目最终夭折,没有被最后采纳。 我有幸当时看过他们的文档和代码,虽然当时我对log structure filesystem理解和虚拟机...
阅读全文
摘要:Comparing Scality RING Object Store & Hadoop HDFS filesystemwith 5 commentsIt’s a question that I get a lot so I though let’s answer this one here so I can point people to this blog post when it comes out again!So first, introduction,What are Hadoop and HDFS?HadoopApache Hadoop is a software fra
阅读全文
摘要:引言HDFS同时发送到客户端请求的数据,和紧跟在后面的数据(多余的数据),随机访问会有问题A 性能 针对同一个服务器的多个访问 针对同个不同的服务器怎么辨别是否是随机访问? 这个事情是客户端做的,判断偏移
阅读全文
摘要:引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,心跳检测和重新复制集群均衡数据完整性元数据磁盘错误快照数据组织数据块Staging流水线复制可访问性DFSShellDFSAdmin浏览器接口存储空间回收文件的删除和恢复减少副本系数参考资料引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上
阅读全文
摘要:分布式文件系统的设计目标大概是这么几个:透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现,可以更清楚地看出HDFS的应用场景和设计理念。 首先是透明性,如果按照开放分布式处理的标准确定就有8种透明性:访问的透明性、位置的透明性、并发透明性、复制透明性、故障透明性、移动透明性、性能透明性和伸缩透明性。对于分布式文件系统,最重要的是希望能达到5个透明性要求:1)访问的透明性:用户能通过相同的操作来访问本地文件和远程文件资源。HDFS可以做到这一点,如果HDFS设置成本地文件系统,而非分布式,那么读写 分布式HDFS的程序可以不用修改地读写本地文件,要做
阅读全文