随笔分类 -  hadoop

摘要:常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系统的起源 Google File Sy 阅读全文
posted @ 2018-05-25 18:27 QiaoZhi 阅读(672) 评论(0) 推荐(0) 编辑
摘要:1.RPC简介 Remote Procedure Call 远程过程调用协议 RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传 阅读全文
posted @ 2018-05-25 11:41 QiaoZhi 阅读(565) 评论(0) 推荐(0) 编辑
摘要:1.RPC简介 Remote Procedure Call 远程过程调用协议 RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传 阅读全文
posted @ 2018-05-24 22:21 QiaoZhi 阅读(696) 评论(0) 推荐(0) 编辑
摘要:注意:下面的所有代码都是在linux的eclipse中进行编写。 1.首先测试从hdfs中下载文件: 下载文件的代码:(将hdfs://localhost:9000/jdk-7u65-linux-i586.tar.gz文件下载到本地/opt/download/doload.tgz) 直接运行报错: 阅读全文
posted @ 2018-04-20 21:35 QiaoZhi 阅读(2063) 评论(0) 推荐(0) 编辑
摘要:datanode的作用: (1)提供真实文件数据的存储服务。 (2)文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一 阅读全文
posted @ 2018-04-17 23:04 QiaoZhi 阅读(2537) 评论(1) 推荐(0) 编辑
摘要:1.hdfs文件上传机制 文件上传过程: 1.客户端想NameNode申请上传文件, 2.NameNode返回此次上传的分配DataNode情况给客户端 3.客户端开始依向dataName上传对应的block数据块。 4.上传完成之后通知namenode,namenode利用pipe管道机制进行文件 阅读全文
posted @ 2018-04-14 12:53 QiaoZhi 阅读(711) 评论(0) 推荐(0) 编辑
摘要:在搭建环境的过程中我们用过: 以 hadoop fs 表示file system 开头 查询所有的hdfs shell命令 注意:hdfs对于文件不允许修改,但是可以对内容进行追加,修改的时候需要将前面分好的块进行重新排列,所以不支持,但是追加可以实现,相当于重新加块。 注意: 对于hadoop命令 阅读全文
posted @ 2018-04-11 21:09 QiaoZhi 阅读(531) 评论(0) 推荐(0) 编辑
摘要:1.hdfs的优缺点 (1)不适合大量小文件存储; (2)不适合并发写入,不支持文件随机修改;(只能append追加) (3)不支持随机读等低延时的访问方式 2.基本思想 主从结构 主节点, namenode 从节点,有很多个: datanodenamenode负责: 接收用户操作请求 维护文件系统 阅读全文
posted @ 2018-04-11 20:13 QiaoZhi 阅读(526) 评论(0) 推荐(0) 编辑
摘要:注意:所有的安装用普通哟用户安装,所以首先使普通用户可以以sudo执行一些命令: 0.虚拟机中前期的网络配置参考: http://www.cnblogs.com/qlqwjy/p/7783253.html 1.赋予hadoop用户以sudo执行一些命令 添加下面第二行内容: 登录hadoop用户查看 阅读全文
posted @ 2018-04-11 12:28 QiaoZhi 阅读(472) 评论(0) 推荐(0) 编辑
摘要:0.什么是大数据? 大数据是一个概念,也是一门技术,是在以hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以hadoop和spark为代表的基础大数据框架。 还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。 1.什么是hadoop? 简单 阅读全文
posted @ 2018-04-10 11:44 QiaoZhi 阅读(654) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示