摘要:
什么是HDFS? hadoop distributed file system(hadoop分布式文件系统) 是一种允许文件通过网络在多台主机上分享的文件系统, 可让多机器上的多用户分享文件和存储空间. 特点: 1.通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一... 阅读全文
2015年4月9日 #
摘要:
MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键值对作为输入和输出.用户只需要实现map()和reduc... 阅读全文