君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
  1057 随笔 :: 381 文章 :: 141 评论 :: 169万 阅读

随笔分类 -  Hadoop

摘要:什么是HDFS? hadoop distributed file system(hadoop分布式文件系统) 是一种允许文件通过网络在多台主机上分享的文件系统, 可让多机器上的多用户分享文件和存储空间. 特点: 1.通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一... 阅读全文
posted @ 2015-04-09 00:45 刺猬的温驯 阅读(545) 评论(1) 推荐(0) 编辑

摘要:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键值对作为输入和输出.用户只需要实现map()和reduc... 阅读全文
posted @ 2015-04-09 00:40 刺猬的温驯 阅读(800) 评论(0) 推荐(0) 编辑

摘要:在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示:... 阅读全文
posted @ 2015-04-08 00:27 刺猬的温驯 阅读(498) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2013-06-12 21:18 刺猬的温驯 阅读(5) 评论(0) 推荐(0) 编辑

摘要:人类学习的方式在很大程度上始于模仿,“古者包犠氏之王天下也……作结绳而为网罟,以佃以渔,盖取诸离”,古人从自然法则中求生存,逐步走出蒙昧,人法地,地法天,天法道,道法自然。(历代对本句训诂汗牛充栋,还不如本人的解释来得直接 ,顺便鄙视一下那些训诂专家,小题大做,愚不可及)而本文要描述的是,先来模仿几... 阅读全文
posted @ 2013-06-03 05:51 刺猬的温驯 阅读(2007) 评论(0) 推荐(0) 编辑

摘要:本人一贯的风格是先了解系统的基础部分,然后在深入到高级部分;如果违背这种循序渐进的次序,也超出了本人的接受能力。古人说,学有本末,事有终始,知所先后,则尽道矣。我们还是从基础开始吧(本人上文提到的开发图片服务器还是放到后面吧)本人在第一篇文章中描述的WordCount单词统计程序是在单机环境运行的,... 阅读全文
posted @ 2013-06-02 05:44 刺猬的温驯 阅读(1436) 评论(0) 推荐(0) 编辑

摘要:上文中本人是通过Hadoop的eclipse插件来管理HDFS文件系统的,在实际生产环境通常是用编程的方式来管理hadoop的文件系统下面我们编程方式开发一个管理hadoop文件系统的应用首先打开eclipse开发工具,新建Map/Reduce Project项目点击Next,填写项目名称,并且配置... 阅读全文
posted @ 2013-06-02 03:44 刺猬的温驯 阅读(1283) 评论(0) 推荐(1) 编辑

摘要:在上文中我们已经学会了如何启动hadoop,可以通过jps命令查看运行中的进程启动hadoop后,我们可以用通过配置hadoop的eclipse插件管理HDFS文件系统在eclipse开发工具打开Map/Reduce视图,新建hadoop location上面的相关配置与配置文件mapred-sit... 阅读全文
posted @ 2013-06-01 23:53 刺猬的温驯 阅读(508) 评论(0) 推荐(0) 编辑

摘要:本文接下来描述hadoop-1.2.0的系统搭建,在搭建环境的过程中可能会碰到很多问题,需要考验开发人员的足够的耐心本人的系统环境是linuxmint15 64bit1)Hadoop的基本安装a.首先需要编译hadoop-1.2.0系统,在终端进入${hadoop.root}目录,执行ant ecl... 阅读全文
posted @ 2013-05-31 09:01 刺猬的温驯 阅读(1460) 评论(0) 推荐(0) 编辑

摘要:本文接下来描述将hadoop-1.2.0的源码导入到eclipse环境中本人的系统环境是linuxmint15 64bit前提条件是系统已经安装jdk ant ivy并配置好相关环境变量在终端进入${hadoop.root}目录,执行ant eclipse命令,会自动下载相关依赖jar,编译项目然后... 阅读全文
posted @ 2013-05-31 09:00 刺猬的温驯 阅读(734) 评论(0) 推荐(0) 编辑

摘要:这个世界变化的太快,本人上文写完编译hadoop1.1.2版本的eclipse插件,hadoop的1.2.0的release版本就已经发布了,要我们这些开发人员情何以堪呢既然hadoop版本1.2.0发布出来了,我们也不甘落后本人这次的编译环境是linuxmint15 64bit,与上文的编译环境w... 阅读全文
posted @ 2013-05-31 03:32 刺猬的温驯 阅读(4646) 评论(10) 推荐(0) 编辑

摘要:引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apa. 阅读全文
posted @ 2013-05-12 16:46 刺猬的温驯 阅读(389) 评论(0) 推荐(0) 编辑

摘要:网上讲的用Ant编译eclipse hadoop plugin插件,都讲的很复杂,对于我这样的菜鸟哪里经得起这么多折腾,本人经过实践,写出我的编译经验首先请预先安装ant并设置环境变量,下载hadoop-1.1.2.tar.gz源码解压修改${hadoop.root}/src/contrib目录的b... 阅读全文
posted @ 2013-05-09 16:31 刺猬的温驯 阅读(2796) 评论(1) 推荐(0) 编辑

摘要:本文参考hadoop权威指南,开发一个单词统计的程序,首先需要下载hadoop相应版本的依赖文件,本人是采用的maven项目管理,在pom.xml文件加入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.1.2</version> <type>jar</type> <scope>compile</scope> < 阅读全文
posted @ 2013-05-09 04:29 刺猬的温驯 阅读(1738) 评论(0) 推荐(0) 编辑

摘要:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些... 阅读全文
posted @ 2013-03-28 01:25 刺猬的温驯 阅读(1510) 评论(0) 推荐(0) 编辑

摘要:Spring总是惊喜不断,这次又提供了Spring Hadoop模块,方便开发人员使用hadoop不少Spring Hadoop 终于发布了 1.0 的正式版,该版本据首个里程碑发布到现在已经 1 年了。在这一年中我们处理了大量来自社区的反馈,不断进行完善和新功能增加。包括简化编程模型和提升一致性、以更小的体积启动并根据需要增加,可移植性的提升等等。详情请看发行说明。Spring for Apache Hadoop 提供了Spring框架用于创建和运行HadoopMapReduce、Hive和Pig作业的功能,包括HDFS和HBase。如果你需要简单的基于 Hadoop 进行作业调度,你可添加 阅读全文
posted @ 2013-03-07 02:46 刺猬的温驯 阅读(394) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示