07 2012 档案
摘要:用Java HashMap做对象Cache时要注意一点:要Override对象的HashCode()方法和boolean equals(Object obj)方法,两者缺一不可!
阅读全文
摘要:排序排序是使数据有序化的操作。这里的数据包括关键字和其它信息项,关键字用来控制排序。排序使得数据有序化,实际上是使数据按关键字的某个定义明确的顺序规则排列。如果被排序的数据在内存中,那么这个排序方法就叫做内排序;如果数据来自磁盘则叫做外部排序。其中内部排序能很容易访问任何数据项,而外排序必须顺序地访问数据项。本章我们主要讨论内部排序。对于内部排序,数据在内存中的存储方式分为数组和链表两种。本章我们主要讨论基于数组存储方式的算法,并简单介绍几种基于链表存储方式的数据的算法。对算法的性能评价包括时间开销、空间开销、稳定性等方面。时间和空间开销比较容易理解,所谓算法稳定性值得是:如果排序算法不改变关
阅读全文
摘要:网络流在上一章中我们讨论的主题是图中顶点之间的最短路径,例如公路地图上两地点之间的最短路径,所以我们将公路地图抽象为有向带权图。本章我们将对基于有向带权图的模型做进一步扩展。很多系统中涉及流量问题,例如公路系统中车流量,网络中的数据信息流,供油管道的油流量等。我们可以将有向图进一步理解为“流网络”(flownetwork),并利用这样的抽象模型求解有关流量的问题。图电路原理图可抽象为网络流流网络中每条有向边可以认为是传输物质的管道,每个管道有固定的容量,可以看作是物质能够流经该管道的最大速度。顶点是管道之间的交叉连接点,除了汇点之外,物质只流经这些点,不会再顶点滞留或消耗。也就是说,物质进入某
阅读全文
摘要:最短路径算法在交通地图上,两地点之间的路径通常标有长度,我们可以用加权有向来描述地图上的交通网。加权有向图中每条路径都有一个路径权值,大小为该路径上所有边的权值之和。本节将重点讨论顶点之间最短路径问题。在实际问题中,路径权值还可以表示其它类型的开销,例如两地之间行程所需要的时间;两任务切换所需代价等。本节讨论的最短路径具有方向性,问题用图的术语描述为:给定一个起始顶点s和一个结束顶点t,在图中找出从s到t的一条最短路径。称s为路径源点,t为路径汇点。最短路径问题可以进一步分为单源最短路径和全源最短路径。l单源最短路径定义为,给定起始顶点s,找出从s到图中其它各顶点的最短路径。求解单源最短路径的
阅读全文
摘要:连通区域标记算法 二值图像的连通区域标记过程:从仅由”1”像素(前景点)和”0”像素(背景点)组成的一幅点阵图像中,将相互邻接的”1”值像素组合成区域,并用边界信息来描述每个连通区域。传统的连通区域标记方法通常要对二值图像执行两次扫描。第一次扫描通过逐行逐列扫描像素。判断像素之间的相邻关系,对属于同一连通区域的像素赋予相同的连通标号,实现连通标识。这种逐行逐列的次序扫描的结果,通常会产生同一像素点被重复标记的现象,同一连通区域的不同子区域被赋予了不同的标记号。因此,需要执行第二次扫描来消除重复的标记,合并属于同一连通区域但是具有不同标记号的子区域。传统方法的效率比较低,尤其是在重复性标记发生率
阅读全文
摘要:最小支撑树树前几节中介绍的算法都是针对无权图的,本节将介绍带权图的最小支撑树(minimumspanningtree)算法。给定一个无向图G,并且它的每条边均权值,则MST是一个包括G的所有顶点及边的子集的图,这个子集保证图是连通的,并且子集中所有边的权值之和为所有子集中最小的。本节中介绍三种算法求解图的最小生成树:Prim算法、Kruskal算法和Boruvka算法。其中Prim算法将介绍两种实现方法,一种是普通的贪心算法;而第二种算法是借助最大堆的贪心算法,其性能更高。Prim算法的思路是从任意一个顶点开始,逐步向已形成的MST子树中增加权值最小的边从而最终形成MST。Kruskal算法和
阅读全文
摘要:强连通分支算法本节内容将详细讨论有向图的强连通分支算法(stronglyconnectedcomponent),该算法是图深度优先搜索算法的另一重要应用。强分支算法可以将一个大图分解成多个连通分支,某些有向图算法可以分别在各个联通分支上独立运行,最后再根据分支之间的关系将所有的解组合起来。在无向图中,如果顶点s到t有一条路径,则可以知道从t到s也有一条路径;在有向无环图中个,如果顶点s到t有一条有向路径,则可以知道从t到s必定没有一条有向路径;对于一般有向图,如果顶点s到t有一条有向路径,但是无法确定从t到s是否有一条有向路径。可以借助强连通分支来研究一般有向图中顶点之间的互达性。有向图G=(
阅读全文
摘要:拓扑排序在许多应用中,有向无回路图可用于抽象具有发生先后顺序的事件,图的搜索算法可以用于解决具有先决条件的问题。假设我们要安排一系列任务,但是只有在某个任务的先决条件具备时才能着手完成这个任务。我们希望以某种先后顺序组织这些任务,以便每项任务都是在先决条件已完成的前提下逐个完成。因为任务之间存在先决条件限制,也就是顶点之间存在方向性,所以这一类问题可以用有向无环图(DAG)来描述。如图给出一个学科学习的例子,其中必须先学完某些功课才能学习其它功课,当然也有一些比较独立的功课,例如体育课。图中有向边(u,v)表示功课u必须在功课v之前学习。所以该图的拓扑排序将可以给出一个功课学习的先后顺序。图功
阅读全文
摘要:图的广度优先搜索图的的搜索算法主要分为广度优先搜索(breadth-firstsearch或BFS)和深度优先搜索(depth-firstsearch或DFS)。首先讨论广度优先搜索算法。称之为广度优先,是因为算法始终首先发现距离起始顶点较近的顶点,然后才发现较远的顶点。假设搜索的出发顶点为s,则首先搜索与s直接相邻的顶点,然后再搜索这些相邻顶点的相邻顶点。在搜索过程中可以记录每个顶点到起始顶点s的距离。这种搜索算法能生成一棵以s为根、包括所有s可达的顶点的广度优先搜索树(BFS树)。图中各顶点的访问次序对应于广度优先搜索树中各节点由顶至底的层次。在这里我们设计算法跟踪图中各个顶点的访问次序,
阅读全文
摘要:本章开始介绍图数据结构和相关的算法。一个图有两个部分组成,跟前面介绍的树结构一样,一部分是节点,在图的术语中也称为顶点(vertex),我们将统一称之为顶点;另一部分是顶点的链接,称为边(edge)。顶点和边之间有着紧密的联系,通常图的任意一对顶点之间都允许有一条边。前几章介绍的链表和树都可以看作是结构首先的图,从这个意义上讲,图是最基本的数据结构。图结构本广泛应用与实际问题的描述和求解,以下几个例子:1.地图的坐标点和坐标点之间的连接及距离,求解坐标点之间的最右路径;2.交通网络流问题;3.通信网络路由算法…………本章将给出以上问题的相关抽象模型和问题的求解算法。包括:术语及描述 .术语及描
阅读全文
摘要:二叉树前序遍历(递归及递推算法)后续遍历(递归及递推算法)中序遍历(递归及递推算法)层序遍历霍夫曼编码深入研究 上面两节内容中,我们讨论了广义树的两种实现方法,及“子节点表”和“最左子节点/右兄弟节点”法。这两种方法所实现的树是多叉树,适用于描述任意的树形结构。本节内容中我们将讨论一种特殊的树,即二叉树。与广义树相比,二叉树具有特定的结构,包括内外节点个数的关系、节点数与树的高度的关系等。本节将着重讨论二叉树的各种遍历算法,包括前序、中序、后序和层序遍历算法。最后,本章将研究一种在信息技术中广泛应用的一种特殊的二叉树,即Huffman树。二叉树的数学性质在讨论二叉树的各种算法之前,我们先详细讨
阅读全文
摘要:树广义树概念子节点表描述方法树的“左子节点/右兄弟节点”描述方法 本章将扩展前几章的内容,讨论一种较为复杂的数据结构,即树(tree)结构。前面所讨论的线性表、堆栈等数据结构中,跟每个节点相连的节点的个数都是有限的。本章讨论的树结构中,节点可以有任意数目的子节点。这是的数在实际应用中具有更大的作用,但其结构更复杂。树的定义 一棵树T是由一个或一个以上节点组成的有限集合,其中节点有分为根节点、叶节点和中间节点。树具有层结构,根节点(R)之外的节点集合{T-R},可以划分为一些不相交子集{T1,…,Tn}。这些子集又可以分别构成子树,并拥有相应的根节点。一般将位于根节点左边的子节点称作左子节点,位
阅读全文
摘要:堆堆的概念 堆上的算法堆的打印CPU优先级抢占模型 堆是一种数组对象,与之前几章所讨论的内容稍有不同的是,堆中的元素项具有特殊的顺序结构。在本书后面将介绍树数据结构,事实上堆属于一种特殊的树,即完全二叉树。完全二叉树中除了最后一层之外树的每一层都填满。之所以将堆数据结构提前介绍,一方面是因为堆也是一种基本的数据结构。另一方面,堆的一个重要功能是能实现优先队列。上一章中我们刚讨论过队列,所以紧接着在这一章介绍堆以及利用堆实现优先队列。堆的概念假设r[0],r[1],…,r[n-1]是一序列元素,可以看作是数组结构。如果对于任意r[i],同时满足条件r[i]≥r[2*i+1]和r[i]≥r[2*i
阅读全文
摘要:队列顺序队列生产者消费者模型 链式队列 队列(queue)跟上一章中介绍的栈数据结构一样,也是一种操作受限的线性表。栈的操作受限表现在插入和删除只能对栈顶元素进行,删除的元素永远是最新插入的,即操作遵循后入先出(LIFO)原则。这一章将讨论的队列中的操作原则与栈的相反。删除的元素是最早插入到队列中的,就像排队一样,排在最前面的人将最先从队伍中出列。这样的操作原则常常称作先入先出(FIFO,FirstInFirstOut)。由于队列结构和栈结构具有相反的操作原则,我们在的设计队列是将在栈的设计结构的基础上做一定的“反向”调整。本章同样首先介绍队列的ADT,然后介绍两种队列的实现方式:顺序队列和链
阅读全文
摘要:栈顺序栈链表栈 利用栈实现递归(递推求组合数)在上一章中我们讨论了线性表数据结构,重点探讨了线性表的几种实现方法。可以发现对线性表的操作,没有特别的限制:可以在表中任意当前位置插入或删除元素,而且可以重置当前节点指向。这一章我们将详细介绍一种操作受限的线性表——栈。栈是一种只支持两种主要的操作的受限线性表。可以将栈想像成一个“黑盒”,我们只能看到黑盒中置于顶端的物体。对栈里元素的操作也只能针对顶端的元素进行。习惯上称栈的可访问元素即栈的顶端,为栈顶。对栈的两种操作称为压栈(push,在栈顶添加新的元素)和出栈(pop,弹出栈顶元素)。这种受限的操作下,元素通常遵循后出先入(LIFO,LastI
阅读全文
摘要:顺序线性表单练式线性表双链式顺序表循环链表及其应用 线性表(LinearList)是一种最常见也很重要的数据结构。类似于代数学中的向量的概念,线性表是由一组有序的数据组成。一般采用的描述方式为:(a0,a2,…,an-1)其中n表示线性表的有效长度,其中元素序号为0—n-1。这里所说的“有效长度”指的是线性表中实际使用的元素的个数,相对于线性表的最大允许长度。ai是元素的抽象表示,可以是表示不同的含义的变量。若线性表中没有任何元素,及有效长度为0时,我们称之为空表,记为()。线性中的第一个元素称之为表头,通常还将线性表的最后一个元素成为表尾。在对线性表进行元素访问时使用其下标作为索引。例如,访
阅读全文
摘要:开场白:很长时间以来一直想把以前所学习的一些基本算法整理一遍,最近准备利用周末的时间在博客园写一个算法系列,留作记录以备将来查看。首先从“元素项类” 谈起。所有源代码在google code上http://code.google.com/p/algolib-java/下载或者直接猛击:/Files/luweiseu/Source_codes.rar 在线性表以及其它的数据结构中,每个元素都包含数据区,即我们这里讲的“元素项”(ElementItem)。元素项的元素值可以是数值类型,如整数、浮点数等;也可以是字符型,如String,char。一般情况下,元素项的类型在同一个线性表中是相同的,但是
阅读全文
摘要:HBase orm以及一个简历存储用例
阅读全文
摘要:早晨看着head fist design pattern,看到decorator pattern 时越发觉得这个“数据结构”特别眼熟。想了想,就是链表。感觉decorator pattern 跟链表基本是一回事,只不过从高一层的设计角度来看这是一种模式而已。网上有相关的文章,有空看一下:http://perldesignpatterns.com/?DecoratorPattern
阅读全文
摘要:近来对leveldb比较感兴趣,一来是因为之前学习了HBase,leveldb则是HBase Regionserver的简单实现。通过学习c++代码,我发现google的工程师真是太牛了,其中很多设计都令人叹为观止。尤其是通过多层次Iterator来封装对数的访问,让我大开眼界。
手痒,试着用Java实现LevelDB:http://code.google.com/p/leveldb-java/
大家轻拍。
阅读全文