2016年3月20日
摘要: MapReduce计算模型由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。map()和reduce()这两个函数的形参是key、value对,表示函数的输入信息。 1. map任务处理 1 读取输入文件内容,解析成key、val 阅读全文
posted @ 2016-03-20 21:06 问候你爸 阅读(317) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一种编程模型,用于大规模数据集的并行计算,其主要思想就是Map(映射)和Reduce(化简)。MapReduce的创意和灵感来源于函数式编程,在函数式编程中,map对列表的每个元素执行操作或函数。例如:列表[1,2,3,4]上执行 multiple-by-two 函数会产生另一个 阅读全文
posted @ 2016-03-20 20:42 问候你爸 阅读(145) 评论(0) 推荐(0) 编辑
摘要: Hadoop的安装模式分为三种:单机模式、伪分布模式、全分布模式 单机模式,这是默认的安装模式,也是占用资源最少的模式,配置文件不用修改。完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,主要用于开发调试MapReduce应用程序。 伪分布模式,即单节点集群模式,所 阅读全文
posted @ 2016-03-20 20:31 问候你爸 阅读(281) 评论(0) 推荐(0) 编辑
摘要: web服务器--》flume收集日志-->hdfs日志存储-->数据清洗MapReduce-->Hive数据挖掘-->Sqoop数据导出-->数据存储到HBase-->数据可视化展示-->前端 阅读全文
posted @ 2016-03-20 19:58 问候你爸 阅读(235) 评论(0) 推荐(0) 编辑
摘要: Hadoop1.0最新稳定版本1.2.1 1.Hadoop Common 2.分布式文件系统HDFS 3.分布式并行计算框架MapReduce Hadoop2.0稳定版本2.2.0 1.Hadoop Common 2.分布式文件系统HDFS 3.分布式并行计算框架MapReduce 4.YARN H 阅读全文
posted @ 2016-03-20 19:41 问候你爸 阅读(221) 评论(0) 推荐(0) 编辑
摘要: IAAS:基础设施服务 PAAS:平台服务 SAAS:软件服务 阅读全文
posted @ 2016-03-20 18:49 问候你爸 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop最早起源于Nutch. 2.06年初,开发人员移除Nutch,成为Lucene的一个子项目成为Hadoop 3.06年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS独立发展 4.08年1月,Hadoop成为Apache顶级项目,迎来了快速发展期 个人Q 阅读全文
posted @ 2016-03-20 18:48 问候你爸 阅读(2263) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个开源框架,可编写和运行分布式应用处理大数据。分布式是一个宽泛并且不断变化的领域,Hadoop的优势在于: 1.方便:Hadoop运行在一般商用机器构成的大型集群上,或者云计算上,比如EC2 2.健壮: Hadoop致力于在一般商业应用硬件上,,其架构假设硬件会频繁失效,Hadoop 阅读全文
posted @ 2016-03-20 18:41 问候你爸 阅读(175) 评论(0) 推荐(0) 编辑