pingh14 - 博客园

公告

2014年5月17日

摘要：本文转自http://ronxin999.blog.163.com/blog/static/42217920201279112163/ 阅读全文

posted @ 2014-05-17 07:28 pingh14 阅读(192) 评论(0) 推荐(0)

2014年5月15日

摘要：简述树的深度优先及广度优先遍历算法,并说明非递归实现。原题出自百度的笔试：当时我看到这个题目的时候，已经完全记不得非递归算法该怎么实现了，后来查阅了一下，要用到两个辅助的数据结构：深度优先遍历--->栈；广度优先遍历--->队列；这里以二叉树为例来实现。import java.util.ArrayD... 阅读全文

posted @ 2014-05-15 22:52 pingh14 阅读(439) 评论(0) 推荐(0)

hadoop作业调优参数整理及原理

摘要： 1 Map side tuning参数1.1 MapTask运行内部原理 Input Split的大小，决定了一个Job拥有多少个map，默认64M每个Split，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tr... 阅读全文

posted @ 2014-05-15 22:00 pingh14 阅读(313) 评论(0) 推荐(0)

2014年4月16日

Hadoop InputFormat浅析

摘要：在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapR... 阅读全文

posted @ 2014-04-16 22:32 pingh14 阅读(162) 评论(0) 推荐(0)

2014年4月15日

Hadoop TaskScheduler源码分析

摘要： TaskScheduler是MapReduce中的任务调度器。在MapReduce中，JobTracker接收JobClient提交的Job，将它们按InputFormat的划分以及其他相关配置，生成若干个Map和Reduce任务。然后，当一个TaskTracker通过心跳告知JobTracker自... 阅读全文

posted @ 2014-04-15 22:21 pingh14 阅读(365) 评论(0) 推荐(0)

2014年4月8日

Hadoop InputFormat详解

摘要： InputFormat是MapReduce编程模型包括5个可编程组件之一，其余4个是Mapper、Partitioner、Reducer和OutputFormat。新版HadoopInputFormat是一个抽象类，之前的InputFormat是一个接口。InputFormat类有两个抽象方法。方法... 阅读全文

posted @ 2014-04-08 20:30 pingh14 阅读(639) 评论(0) 推荐(0)

2014年2月28日

Python正则表达式指南

摘要： http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 阅读全文

posted @ 2014-02-28 17:30 pingh14 阅读(133) 评论(0) 推荐(0)

腾讯大规模Hadoop集群实践

摘要： http://www.dataguru.cn/article-4264-1.html 阅读全文

posted @ 2014-02-28 17:21 pingh14 阅读(226) 评论(0) 推荐(0)

迅雷笔试题（JAVA多线程）启动三个线程，分别打印A B C，现在写一个程序循环打印ABCABCABC

摘要：题目：http://wenku.baidu.com/view/d66187aad1f34693daef3e8a.html启动三个线程，分别打印A B C，现在写一个程序循环打印ABCABCABC....本文分别使用wait、nofity和Semaphore来实现：wait、nofity版本public class TestThread { public static void main(String[] args) { new Thread(new OrderThread(0,'A')).start(); new Thread(new OrderThrea... 阅读全文

posted @ 2014-02-28 15:13 pingh14 阅读(691) 评论(0) 推荐(0)

2014年2月13日

（五）堆排序

摘要：堆排序与快速排序，归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前，先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性：1．父结点的键值总是大于或等于（小于或等于）任何一个子节点的键值。2．每个结点的左子树和右子树都是一个二叉堆（都是最大堆或最小堆）。当父结点的键值总是大于或等于任何一个子节点的键值时为最大堆。当父结点的键值总是小于或等于任何一个子节点的键值时为最小堆。下图展示一个最小堆：由于其它几种堆（二项式堆，斐波纳契堆等）用的较少，一般将二叉堆就简称为堆。堆的存储一般都用数组来表示堆，i结点的父结点下标就阅读全文

posted @ 2014-02-13 22:55 pingh14 阅读(371) 评论(0) 推荐(0)