君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2015年4月9日 #

摘要: 什么是HDFS? hadoop distributed file system(hadoop分布式文件系统) 是一种允许文件通过网络在多台主机上分享的文件系统, 可让多机器上的多用户分享文件和存储空间. 特点: 1.通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一... 阅读全文
posted @ 2015-04-09 00:45 刺猬的温驯 阅读(536) 评论(1) 推荐(0) 编辑

摘要: MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键值对作为输入和输出.用户只需要实现map()和reduc... 阅读全文
posted @ 2015-04-09 00:40 刺猬的温驯 阅读(787) 评论(0) 推荐(0) 编辑