03 2015 档案
摘要:本文地址:http://www.cnblogs.com/archimedes/p/java-study-note16.html,转载请注明源地址。IO(Input Output)流IO流用来处理设备之间的数据传输,对数据的操作是通过流的方式,Java用于操作流的对象都在IO包中输入/输出流可以从以下...
阅读全文
摘要:一般来说,计算机处理的数据都存在一些冗余度,同时数据中间,尤其是相邻数据间存在着相关性,所以可以通过一些有别于原始编码的特殊编码方式来保存数据,使数据占用的存储空间比较小,这个过程一般叫压缩。和压缩对应的概念是解压缩,就是将被压缩的数据从特殊编码方式还原为原始数据的过程。压缩广泛应用于海量数据处...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable.html,转载请注明源地址。Hadoop将很多Writable类归入org.apache.hadoop.io包中,在这些类中,比较重要的有Java基本类、Text、Writable集合、...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/java-study-note15.html,转载请注明源地址。线程的生命周期1、线程的生命周期线程从产生到消亡的过程一个线程在任何时刻都处于某种线程状态(thread state)线程生命周期状态图诞生状态线程刚刚被...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/java-study-note14.html,转载请注明源地址。多线程编程基础多进程一个独立程序的每一次运行称为一个进程,例如:用字处理软件编辑文稿时,同时打开mp3播放程序听音乐,这两个独立的程序在同时运行,称为两个...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/java-study-note13.html,转载请注明源地址。Java的反射机制在Java运行时环境中,对于任意一个类,能否知道这个类有哪些属性和方法?对于任意一个对象,能否调用它的任意一个方法?答案是肯定的。这种动...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/hadoop-jobcontrol.html,转载请注明源地址。引入实例:贝叶斯分类贝叶斯分类是一种利用概率统计知识进行分类的统计学分类方法。该方法包括两个步骤:训练样本和分类。其实现由多个MapReduce 作业完成...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/hadoop-partitioner.html,转载请注明源地址。旧版 API 的 Partitioner解析Partitioner 的作用是对 Mapper 产生的中间结果进行分片,以便将同一分组的数据交给同一个 R...
阅读全文
摘要:1 . 旧版 API 的 Mapper/Reducer 解析Mapper/Reducer 中封装了应用程序的数据处理逻辑。为了简化接口,MapReduce 要求所有存储在底层分布式文件系统上的数据均要解释成 key/value 的形式,并交给Mapper/Reducer 中的 map/reduce ...
阅读全文
摘要:OutputFormat 主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入特定格式的文件中。 本文将介绍 Hadoop 如何设计 OutputFormat 接口 , 以及一些常用的OutputFormat 实现。1.旧版 API 的 OutputFormat 解析如图所示,...
阅读全文
摘要:InputFormat 主要用于描述输入数据的格式, 它提供以下两个功能。❑数据切分:按照某个策略将输入数据切分成若干个 split, 以便确定 Map Task 个数以及对应的 split。❑为 Mapper 提供输入数据: 给定某个 split, 能将其解析成一个个 key/value 对。本文...
阅读全文
摘要:在正式分析新旧 API 之前, 先要介绍几个基本概念。 这些概念贯穿于所有 API 之中,因此, 有必要单独讲解。1.序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。 在 Hadoop MapReduce 中, 序列化的主...
阅读全文
摘要:MapReduce 编程模型给出了其分布式编程方法,共分 5 个步骤:1) 迭代(iteration)。遍历输入数据, 并将之解析成 key/value 对。2) 将输入 key/value 对映射(map) 成另外一些 key/value 对。3) 依据 key 对中间数据进行分组(groupin...
阅读全文
摘要:Hadoop 由两部分组成,分别是分布式文件系统和分布式计算框架 MapReduce。 其中分布式文件系统主要用于大规模数据的分布式存储,而 MapReduce 则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。本文主要涉及 MapReduce,但考虑到它的一些功能跟底层存储...
阅读全文
摘要:本文将介绍在 Eclipse 下阅读 Hadoop 源代码的一些技巧, 比如如何查看一个基类有哪些派生类、 一个方法被其他哪些方法调用等。本文地址:http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html,转载请注明源地址。欢迎...
阅读全文
摘要:Hadoop中有一套Writable实现可以满足大部分需求,但是在有些情况下,我们需要根据自己的需要构造一个新的实现,有了定制的Writable,我们就可以完全控制二进制表示和排序顺序。为了演示如何新建一个定制的writable类型,我们需要写一个表示一对字符串的实现:blic class Text...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-class.html,转载请注明源地址。hadoop中自带的org.apache.hadoop.io包中有广泛的writable类可供选择,它们形成下图所示的层次结构:java基本类型的...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-interface.html,转载请注明源地址。简介序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。通讯格式需求hadoop在节点间的内部通讯使...
阅读全文
摘要:java学习笔记系列:java学习笔记11--集合总结java学习笔记10--泛型总结java学习笔记9--内部类总结java学习笔记8--接口总结java学习笔记7--抽象类与抽象方法java学习笔记6--类的继承、Object类java学习笔记5--类的方法java学习笔记4--对象的初始化与回...
阅读全文
摘要:3.1public class test { public static void main(String[] args) { System.out.println("Enter a, b, c: "); Scanner input = new Scanner(Sy...
阅读全文
摘要:2.1public class test { public static void main(String[] args) { Scanner input = new Scanner(System.in); double f, c; c = input...
阅读全文
摘要:1.1public class test { public static void main(String[] args) { System.out.println("Welcome to java"); System.out.println("Welcome to...
阅读全文