摘要: Combiner和Partitioner是用来优化MapReduce的,可以提高MapReduce的运行效率。下面我们来具体学习这两个组件。Combiner 我们以WordCount为例,首先通过下面的示意图直观的了解一下Combiner的位置和作用。 从上图可以看出,Combiner介于 Mapp 阅读全文
posted @ 2016-11-25 10:36 花心土豆 阅读(180) 评论(0) 推荐(0) 编辑
摘要: Hadoop 中的MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。 一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务以完成并行的方式处理它们。框架会对 阅读全文
posted @ 2016-11-25 10:34 花心土豆 阅读(298) 评论(0) 推荐(0) 编辑
摘要: MapReduce 定义 Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce 来源 Hadoop MapReduce 源于 Google 在2004年12月 阅读全文
posted @ 2016-11-25 10:33 花心土豆 阅读(356) 评论(0) 推荐(0) 编辑
摘要: HDFS 是做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率 阅读全文
posted @ 2016-11-25 10:32 花心土豆 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影。下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数据工具。 这一切,都起源自 Web 数据爆炸时代的来临。Hadoop 生态系统的功能以及对应的开源工 阅读全文
posted @ 2016-11-25 10:29 花心土豆 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 工欲善其事,必先利其器。” 首先,还是和小讲一起搭建一个Hadoop环境吧。Hadoop发行版本选择从Hadoop官方网站可以看到,Hadoop最新版已经到2.7了。不过,据小讲所知,目前企业生产环境中2.2这个版本用得比较多,不少企业还停留在1.X等更低的版本,市面上很多教材采用的还是0.2X,1 阅读全文
posted @ 2016-11-25 10:26 花心土豆 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 我们已经知道了Hadoop的三大核心模块:HDFS、MapReduce、Yarn。很多Hadoop学习教材和视频一上来就大讲特讲HDFS,不过这一块偏底层,很多同学听起来可能晕头转向。更重要的是学了好长时间还是没开始编程,那叫一纠结呀... 鉴于此,我们还是从MapReduce开始吧,很快你就能自己 阅读全文
posted @ 2016-11-25 10:19 花心土豆 阅读(261) 评论(0) 推荐(0) 编辑
摘要: Hadoop是什么? Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。分布式计算是一个宽泛并且不断变化的领域,Hadoop的优势在于: 1) 方便:Hadoop运行在由一般商用机器构成的大型集群上,或者云计算服务上,比如EC2。 2) 健壮:Hadoop致力于在一般商用硬件上运行, 阅读全文
posted @ 2016-11-25 10:05 花心土豆 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://blog.csdn.net/pakko/article/details/36641561 “回归”的由来 FrancisGalton,英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于 阅读全文
posted @ 2016-11-25 09:51 花心土豆 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 【转载】 http://blog.csdn.net/pakko/article/details/37878837 什么是逻辑回归? Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型 阅读全文
posted @ 2016-11-25 09:47 花心土豆 阅读(230) 评论(0) 推荐(0) 编辑