wuyudong - 博客园

2015年3月

摘要：本文地址：http://www.cnblogs.com/archimedes/p/java-study-note14.html，转载请注明源地址。多线程编程基础多进程一个独立程序的每一次运行称为一个进程，例如：用字处理软件编辑文稿时，同时打开mp3播放程序听音乐，这两个独立的程序在同时运行，称为两个... 阅读全文

posted @ 2015-03-28 20:03 wuyudong 阅读(577) 评论(0) 推荐(0) 编辑

java学习笔记13--反射机制与动态代理

摘要：本文地址：http://www.cnblogs.com/archimedes/p/java-study-note13.html，转载请注明源地址。Java的反射机制在Java运行时环境中，对于任意一个类，能否知道这个类有哪些属性和方法？对于任意一个对象，能否调用它的任意一个方法？答案是肯定的。这种动... 阅读全文

posted @ 2015-03-25 21:22 wuyudong 阅读(2579) 评论(1) 推荐(4) 编辑

JobControl 的实现原理

摘要：本文地址：http://www.cnblogs.com/archimedes/p/hadoop-jobcontrol.html，转载请注明源地址。引入实例：贝叶斯分类贝叶斯分类是一种利用概率统计知识进行分类的统计学分类方法。该方法包括两个步骤：训练样本和分类。其实现由多个MapReduce 作业完成... 阅读全文

posted @ 2015-03-25 11:10 wuyudong 阅读(960) 评论(0) 推荐(3) 编辑

Hadoop中Partition深度解析

摘要：本文地址：http://www.cnblogs.com/archimedes/p/hadoop-partitioner.html，转载请注明源地址。旧版 API 的 Partitioner解析Partitioner 的作用是对 Mapper 产生的中间结果进行分片，以便将同一分组的数据交给同一个 R... 阅读全文

posted @ 2015-03-24 15:01 wuyudong 阅读(9112) 评论(2) 推荐(7) 编辑

Mapper 与 Reducer 解析

摘要： 1 . 旧版 API 的 Mapper/Reducer 解析Mapper/Reducer 中封装了应用程序的数据处理逻辑。为了简化接口，MapReduce 要求所有存储在底层分布式文件系统上的数据均要解释成 key/value 的形式，并交给Mapper/Reducer 中的 map/reduce ... 阅读全文

posted @ 2015-03-23 20:54 wuyudong 阅读(2947) 评论(0) 推荐(1) 编辑

hadoop中OutputFormat 接口的设计与实现

摘要： OutputFormat 主要用于描述输出数据的格式，它能够将用户提供的 key/value 对写入特定格式的文件中。本文将介绍 Hadoop 如何设计 OutputFormat 接口，以及一些常用的OutputFormat 实现。1.旧版 API 的 OutputFormat 解析如图所示，... 阅读全文

posted @ 2015-03-21 20:59 wuyudong 阅读(1231) 评论(0) 推荐(1) 编辑

hadoop中InputFormat 接口的设计与实现

摘要： InputFormat 主要用于描述输入数据的格式，它提供以下两个功能。❑数据切分：按照某个策略将输入数据切分成若干个 split，以便确定 Map Task 个数以及对应的 split。❑为 Mapper 提供输入数据：给定某个 split，能将其解析成一个个 key/value 对。本文... 阅读全文

posted @ 2015-03-18 21:07 wuyudong 阅读(980) 评论(0) 推荐(1) 编辑

MapReduce API 基本概念

摘要：在正式分析新旧 API 之前，先要介绍几个基本概念。这些概念贯穿于所有 API 之中，因此，有必要单独讲解。1.序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在 Hadoop MapReduce 中，序列化的主... 阅读全文

posted @ 2015-03-18 14:39 wuyudong 阅读(1224) 评论(0) 推荐(1) 编辑

MapReduce 编程模型概述

摘要： MapReduce 编程模型给出了其分布式编程方法，共分 5 个步骤：1）迭代（iteration）。遍历输入数据，并将之解析成 key/value 对。2）将输入 key/value 对映射（map）成另外一些 key/value 对。3）依据 key 对中间数据进行分组（groupin... 阅读全文

posted @ 2015-03-18 09:45 wuyudong 阅读(1217) 评论(0) 推荐(0) 编辑

Hadoop 基本架构

摘要： Hadoop 由两部分组成，分别是分布式文件系统和分布式计算框架 MapReduce。其中分布式文件系统主要用于大规模数据的分布式存储，而 MapReduce 则构建在分布式文件系统之上，对存储在分布式文件系统中的数据进行分布式计算。本文主要涉及 MapReduce，但考虑到它的一些功能跟底层存储... 阅读全文

posted @ 2015-03-17 21:58 wuyudong 阅读(1028) 评论(2) 推荐(0) 编辑

hadoop源代码组织结构与阅读技巧

摘要：本文将介绍在 Eclipse 下阅读 Hadoop 源代码的一些技巧，比如如何查看一个基类有哪些派生类、一个方法被其他哪些方法调用等。本文地址：http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html，转载请注明源地址。欢迎... 阅读全文

posted @ 2015-03-17 19:32 wuyudong 阅读(1772) 评论(0) 推荐(3) 编辑

hadoop中实现定制Writable类

摘要： Hadoop中有一套Writable实现可以满足大部分需求，但是在有些情况下，我们需要根据自己的需要构造一个新的实现，有了定制的Writable，我们就可以完全控制二进制表示和排序顺序。为了演示如何新建一个定制的writable类型，我们需要写一个表示一对字符串的实现：blic class Text... 阅读全文

posted @ 2015-03-12 19:55 wuyudong 阅读(555) 评论(0) 推荐(0) 编辑

hadoop中的序列化与Writable类

摘要：本文地址：http://www.cnblogs.com/archimedes/p/hadoop-writable-class.html，转载请注明源地址。hadoop中自带的org.apache.hadoop.io包中有广泛的writable类可供选择，它们形成下图所示的层次结构：java基本类型的... 阅读全文

posted @ 2015-03-12 09:19 wuyudong 阅读(1283) 评论(0) 推荐(0) 编辑

hadoop中的序列化与Writable接口

摘要：本文地址：http://www.cnblogs.com/archimedes/p/hadoop-writable-interface.html，转载请注明源地址。简介序列化和反序列化就是结构化对象和字节流之间的转换，主要用在内部进程的通讯和持久化存储方面。通讯格式需求hadoop在节点间的内部通讯使... 阅读全文

posted @ 2015-03-11 15:35 wuyudong 阅读(1002) 评论(0) 推荐(0) 编辑

java学习笔记12--异常处理

摘要： java学习笔记系列:java学习笔记11--集合总结java学习笔记10--泛型总结java学习笔记9--内部类总结java学习笔记8--接口总结java学习笔记7--抽象类与抽象方法java学习笔记6--类的继承、Object类java学习笔记5--类的方法java学习笔记4--对象的初始化与回... 阅读全文

posted @ 2015-03-09 19:34 wuyudong 阅读(689) 评论(0) 推荐(1) 编辑

公告