pingh14

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2014年5月17日

摘要: 本文转自http://ronxin999.blog.163.com/blog/static/42217920201279112163/ 阅读全文
posted @ 2014-05-17 07:28 pingh14 阅读(158) 评论(0) 推荐(0) 编辑

2014年5月15日

摘要: 简述树的深度优先及广度优先遍历算法,并说明非递归实现。原题出自百度的笔试:当时我看到这个题目的时候,已经完全记不得非递归算法该怎么实现了,后来查阅了一下,要用到两个辅助的数据结构:深度优先遍历--->栈;广度优先遍历--->队列;这里以二叉树为例来实现。import java.util.ArrayD... 阅读全文
posted @ 2014-05-15 22:52 pingh14 阅读(427) 评论(0) 推荐(0) 编辑

摘要: 1 Map side tuning参数1.1 MapTask运行内部原理 Input Split的大小,决定了一个Job拥有多少个map,默认64M每个Split,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tr... 阅读全文
posted @ 2014-05-15 22:00 pingh14 阅读(283) 评论(0) 推荐(0) 编辑

2014年4月16日

摘要: 在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapR... 阅读全文
posted @ 2014-04-16 22:32 pingh14 阅读(140) 评论(0) 推荐(0) 编辑

2014年4月15日

摘要: TaskScheduler是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知JobTracker自... 阅读全文
posted @ 2014-04-15 22:21 pingh14 阅读(352) 评论(0) 推荐(0) 编辑

2014年4月8日

摘要: InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper、Partitioner、Reducer和OutputFormat。新版HadoopInputFormat是一个抽象类,之前的InputFormat是一个接口。InputFormat类有两个抽象方法。方法... 阅读全文
posted @ 2014-04-08 20:30 pingh14 阅读(577) 评论(0) 推荐(0) 编辑

2014年2月28日

摘要: http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 阅读全文
posted @ 2014-02-28 17:30 pingh14 阅读(124) 评论(0) 推荐(0) 编辑

摘要: http://www.dataguru.cn/article-4264-1.html 阅读全文
posted @ 2014-02-28 17:21 pingh14 阅读(216) 评论(0) 推荐(0) 编辑

摘要: 题目:http://wenku.baidu.com/view/d66187aad1f34693daef3e8a.html启动三个线程,分别打印A B C,现在写一个程序 循环打印ABCABCABC....本文分别使用wait、nofity和Semaphore来实现:wait、nofity版本public class TestThread { public static void main(String[] args) { new Thread(new OrderThread(0,'A')).start(); new Thread(new OrderThrea... 阅读全文
posted @ 2014-02-28 15:13 pingh14 阅读(683) 评论(0) 推荐(0) 编辑

2014年2月13日

摘要: 堆排序与快速排序,归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前,先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性:1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最小堆)。当父结点的键值总是大于或等于任何一个子节点的键值时为最大堆。当父结点的键值总是小于或等于任何一个子节点的键值时为最小堆。下图展示一个最小堆:由于其它几种堆(二项式堆,斐波纳契堆等)用的较少,一般将二叉堆就简称为堆。堆的存储一般都用数组来表示堆,i结点的父结点下标就 阅读全文
posted @ 2014-02-13 22:55 pingh14 阅读(356) 评论(0) 推荐(0) 编辑