潜伏的蛟龙

2013年8月26日

摘要： 1，函数 1.1 函数定义所谓函数，本质上是一种代码的分组形式。我们可以通过这种形式赋予某组代码一个名字，便于日后重用时调用。一般来说，函数声明通常由以下几个部分组成： · function子句 · 函数名称 · 函数所需的参数，参数之间用逗号分隔 · 函数所要执行的代码块，函数体 · return子句。函数通常都会有返回值，如果某个函数没有显式的返回值，默认它的返回值是undef... 阅读全文

posted @ 2013-08-26 00:15 潜伏的蛟龙阅读(275) 评论(0) 推荐(0)

2013年8月18日

Hadoop分布式文件系统（一）

摘要：分布式文件系统当数据集的大小超过一台独立物理计算机的存储能力时，就有必要对它进行分区（partition）并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统。 HDFS的设计 HDFS以流式数据访问模式来存储超大文件，运行于商用硬件集群上。超大文件 “超大文件”在这里指具有几百MB、几百GB甚至几百TB大小的文件。目前已经有存储PB级数据的Hadoop集群了... 阅读全文

posted @ 2013-08-18 00:22 潜伏的蛟龙阅读(405) 评论(0) 推荐(0)

2013年8月16日

MapReduce执行过程

摘要：当我们需要把数据存储在分布式文件系统HDFS，由MapReduce计算移动到存储有部分数据的各台机器上，下面我们看看具体过程。首先上一点干货： MapReduce作业（job）是客户端需要执行的一个工作单元：它包括输入数据，MapReduce程序和配置信息。Hadoop将作业分布称若干小任务（task）来执行，其中包括两类任务：map任务（计算）和reduce（聚合）任务；有两类节点控制着作业... 阅读全文

posted @ 2013-08-16 22:32 潜伏的蛟龙阅读(1130) 评论(0) 推荐(0)

新旧MapReduce 的API对比

摘要： Hadoop 的版本0.20包含一个新的java MapReduce API，我们也称他为上下文对象（context object）。新的API在类型虽然不兼容先前的API，但是更容易扩展。新增的API和旧的API之间的不同点： 1、新的API倾向于使用抽象类，而不是接口，是为了更容易扩展。例如：可以不需要修改类的实现而在抽象类中添加一个方法。在新的API中，mapper和reducer现在... 阅读全文

posted @ 2013-08-16 18:29 潜伏的蛟龙阅读(1925) 评论(0) 推荐(0)

2013年8月15日

关于非root用户配置ssh运行环境

摘要：第一步，我们创建Linux用户：用root用户登录 A．增加用户组命令：groupadd –g 500 hadoop //此处500是手动设置groupID Linux保留前500 ID号； B．增加用户命令：useradd –u 500 –g 500 –m hadoop // 同上-u 500也是用户ID， -m hadoop 表示是在home下创建用户目录，hadoop是目录名，可自... 阅读全文

posted @ 2013-08-15 21:48 潜伏的蛟龙阅读(1196) 评论(0) 推荐(1)

MapReduce 与关系型数据库的区别

摘要： MapReduce 与关系型数据库的区别： 1 数据访问模式受限于磁盘寻址磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据（以PB为单位）必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作，对于最大到GB的数据量，一般相对数据量较小，效果很好。但是大数据量时，B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。 2 MapReduce... 阅读全文

posted @ 2013-08-15 21:33 潜伏的蛟龙阅读(1511) 评论(0) 推荐(0)

博客今天开张了！

摘要：欢迎大家来踩踩！互访！！阅读全文

posted @ 2013-08-15 20:44 潜伏的蛟龙阅读(119) 评论(0) 推荐(0)

落花有意随流水，流水有情恋落花。

公告

潜伏的蛟龙

落花有意随流水 ，流水有情恋落花 。

公告

落花有意随流水，流水有情恋落花。