摘要: 一、MapReduce模型 1、MapReduce是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言。 2、Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。 3、常见的应用包括:日志分 阅读全文
posted @ 2016-08-01 15:14 fansik 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS概述 1、HDFS设计思想来源于Google的GFS,是GFS的开源实现。 2、HDFS要解决的问题: -存储超大文件,比如TB级别 -防止文件丢失。 3、HDFS的特点 -可以存储超大文件 -只允许对一个已经打开的文件顺序写入,还可以在现有文件的末尾追加,要想修改一个文件(追加内容除外 阅读全文
posted @ 2016-08-01 14:41 fansik 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 一、大数据介绍 1、大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。 2、大数据,可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。 3、麦肯锡全球研究院(MGI)预测,到2020年,全球数据使 阅读全文
posted @ 2016-08-01 11:24 fansik 阅读(1431) 评论(0) 推荐(0) 编辑