摘要: 1,函数 1.1 函数定义 所谓函数,本质上是一种代码的分组形式。我们可以通过这种形式赋予某组代码一个名字,便于日后重用时调用。一般来说,函数声明通常由以下几个部分组成: · function子句 · 函数名称 · 函数所需的参数,参数之间用逗号分隔 · 函数所要执行的代码块,函数体 · return子句。函数通常都会有返回值,如果某个函数没有显式的返回值,默认它的返回值是undef... 阅读全文
posted @ 2013-08-26 00:15 潜伏的蛟龙 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 分布式文件系统 当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系 统成为分布式文件系统。 HDFS的设计 HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。 超大文件 “超大文件”在这里指具有几百MB、几百GB甚至几百TB大小的文件。目前已经有存储PB级数据的Hadoop集群了... 阅读全文
posted @ 2013-08-18 00:22 潜伏的蛟龙 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 当我们需要把数据存储在分布式文件系统HDFS,由MapReduce计算移动到存储有部分数据的各台机器上,下面我们看看具体过程。 首先上一点干货: MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息。Hadoop将作业分布称若干小任务(task)来执行,其中包括两类任务:map任务(计算)和reduce(聚合)任务; 有两类节点控制着作业... 阅读全文
posted @ 2013-08-16 22:32 潜伏的蛟龙 阅读(1093) 评论(0) 推荐(0) 编辑
摘要: Hadoop 的版本0.20包含一个新的java MapReduce API,我们也称他为上下文对象(context object)。新的API在类型虽然不兼容先前的API,但是更容易扩展。 新增的API和旧的API之间的不同点: 1、 新的API倾向于使用抽象类,而不是接口,是为了更容易扩展。 例如:可以不需要修改类的实现而在抽象类中添加一个方法。在新的API中,mapper和reducer现在... 阅读全文
posted @ 2013-08-16 18:29 潜伏的蛟龙 阅读(1905) 评论(0) 推荐(0) 编辑
摘要: 第一步,我们创建Linux用户: 用root用户登录 A.增加用户组命令:groupadd –g 500 hadoop //此处500是手动设置groupID Linux保留前500 ID号 ; B.增加用户命令:useradd –u 500 –g 500 –m hadoop // 同上-u 500也是用户ID, -m hadoop 表示是在home下创建用户目录,hadoop是目录名,可自... 阅读全文
posted @ 2013-08-15 21:48 潜伏的蛟龙 阅读(1048) 评论(0) 推荐(1) 编辑
摘要: MapReduce 与 关系型数据库的区别: 1 数据访问模式受限于磁盘寻址 磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。 2 MapReduce... 阅读全文
posted @ 2013-08-15 21:33 潜伏的蛟龙 阅读(1472) 评论(0) 推荐(0) 编辑
摘要: 欢迎大家来踩踩!互访!! 阅读全文
posted @ 2013-08-15 20:44 潜伏的蛟龙 阅读(114) 评论(0) 推荐(0) 编辑