一线码农 - 博客园

2012年12月19日

摘要：说到排序，大家第一反应基本上是内排序，是的，算法嘛，玩的就是内存，然而内存是有限制的，总有装不下的那一天，此时就可以来玩玩外排序，当然在我看来，外排序考验的是一个程序员的架构能力，而不仅仅局限于排序这个层次。一：N路归并排序1.概序我们知道算法中有一种叫做分治思想，一个大问题我们可以采取分而治之，各个突破，当子问题解决了，大问题也就KO了，还有一点我们知道内排序的归并排序是采用二路归并的，因为分治后有LogN层，每层两路归并需要N的时候，最后复杂度为NlogN，那么外排序我们可以将这个“二”扩大到M，也就是将一个大文件分成M个小文件，每个小文件是有序的，然后对应在内存中我们开M个优先队... 阅读全文

posted @ 2012-12-19 14:44 一线码农阅读(13347) 评论(16) 推荐(15) 编辑

2012年12月18日

经典算法题每日演练——第十七题 Dijkstra算法

摘要：或许在生活中，经常会碰到针对某一个问题，在众多的限制条件下，如何去寻找一个最优解？可能大家想到了很多诸如“线性规划”，“动态规划”这些经典策略，当然有的问题我们可以用贪心来寻求整体最优解，在图论中一个典型的贪心法求最优解的例子就莫过于“最短路径”的问题。一：概序从下图中我要寻找V0到V3的最短路径，你会发现通往他们的两点路径有很多：V0->V4->V3，V0->V1->V3，当然你会认为前者是你要找的最短路径，那如果说图的顶点非常多，你还会这么轻易的找到吗？下面我们就要将刚才我们那点贪心的思维系统的整理下。二：构建如果大家已经了解Prim算法，那么Dijkstra算阅读全文

posted @ 2012-12-18 12:14 一线码农阅读(10591) 评论(0) 推荐(4) 编辑

2012年12月17日

经典算法题每日演练——第十六题 Kruskal算法

摘要：这篇我们看看第二种生成树的Kruskal算法，这个算法的魅力在于我们可以打一下算法和数据结构的组合拳，很有意思的。一：思想若存在M={0,1,2,3,4,5}这样6个节点，我们知道Prim算法构建生成树是从”顶点”这个角度来思考的，然后采用“贪心思想”来一步步扩大化，最后形成整体最优解，而Kruskal算法有点意思，它是站在”边“这个角度在思考的，首先我有两个集合。1. 顶点集合(vertexs)：比如M集合中的每个元素都可以认为是一个独根树（是不是想到了并查集？）。2.边集合(edges)：对图中的每条边按照权值大小进行排序。（是不是想到了优先队列？）好了，下面该如何操作呢？... 阅读全文

posted @ 2012-12-17 00:28 一线码农阅读(6318) 评论(6) 推荐(3) 编辑

2012年12月16日

经典算法题每日演练——第十五题并查集

摘要：这一篇我们看看经典又神奇的并查集，顾名思义就是并起来查，可用于处理一些不相交集合的秒杀。一：场景有时候我们会遇到这样的场景，比如:M={1,4,6,8},N={2,4,5,7}，我的需求就是判断{1,2}是否属于同一个集合，当然实现方法有很多，一般情况下，普通青年会做出O(MN)的复杂度，那么有没有更轻量级的复杂度呢？嘿嘿，并查集就是用来解决这个问题的。二：操作从名字可以出来，并查集其实只有两种操作，并(Union)和查(Find)，并查集是一种算法，所以我们要给它选择一个好的数据结构，通常我们用树来作为它的底层实现。1.节点定义 1 #region 树节点 2 ... 阅读全文

posted @ 2012-12-16 15:00 一线码农阅读(5657) 评论(2) 推荐(2) 编辑

2012年12月12日

经典算法题每日演练——第十四题 Prim算法

摘要：图论在数据结构中是非常有趣而复杂的，作为web码农的我，在实际开发中一直没有找到它的使用场景，不像树那样的频繁使用，不过还是准备仔细的把图论全部过一遍。一：最小生成树图中有一个好玩的东西叫做生成树，就是用边来把所有的顶点联通起来，前提条件是最后形成的联通图中不能存在回路，所以就形成这样一个推理：假设图中的顶点有n个，则生成树的边有n-1条，多一条会存在回路，少一路则不能把所有顶点联通起来，如果非要在图中加上权重，则生成树中权重最小的叫做最小生成树。对于上面这个带权无向图来说，它的生成树有多个，同样最小生成树也有多个，因为我们比的是权重的大小。二：Prim算法求最小生成树的算法有很多... 阅读全文

posted @ 2012-12-12 19:12 一线码农阅读(7810) 评论(6) 推荐(3) 编辑

2012年12月9日

经典算法题每日演练——第十三题赫夫曼树

摘要：赫夫曼树又称最优二叉树，也就是带权路径最短的树，对于赫夫曼树，我想大家对它是非常的熟悉，也知道它的应用场景，但是有没有自己亲手写过，这个我就不清楚了，不管以前写没写，这一篇我们来玩一把。一：概念赫夫曼树里面有几个概念，也是非常简单的，先来看下面的图：1. 基础概念<1> 节点的权：节点中红色部分就是权，在实际应用中，我们用“字符”出现的次数作为权。<2> 路径长度：可以理解成该节点到根节点的层数，比如：“A”到根节点的路径长度为3。<3> 树的路径长度：各个叶子节点到根节点的路径长度总和，用WPL标记。最后我们要讨论的的赫夫曼树也就是带权路径长度最小的一棵阅读全文

posted @ 2012-12-09 14:27 一线码农阅读(7358) 评论(5) 推荐(7) 编辑

2012年12月8日

经典算法题每日演练——第十二题线段树

摘要：这一篇我们来看树状数组的加强版线段树，树状数组能玩的线段树一样可以玩，而且能玩的更好，他们在区间求和，最大，平均等经典的RMQ问题上有着对数时间的优越表现。一：线段树线段树又称"区间树”，在每个节点上保存一个区间，当然区间的划分采用折半的思想，叶子节点只保存一个值，也叫单元节点，所以最终的构造就是一个平衡的二叉树，拥有CURD的O(lgN)的时间。从图中我们可以清楚的看到[0-10]被划分成线段的在树中的分布情况，针对区间[0-N]，最多有2N个节点，由于是平衡二叉树的形式也可以像堆那样用数组来玩，不过更加耗费空间，为最多4N个节点，在针对RMQ的问题上，我们常常在每个节点上增加一阅读全文

posted @ 2012-12-08 00:37 一线码农阅读(4676) 评论(3) 推荐(2) 编辑

2012年12月6日

经典算法题每日演练——第十一题 Bitmap算法

摘要：在所有具有性能优化的数据结构中，我想大家使用最多的就是hash表，是的，在具有定位查找上具有O(1)的常量时间，多么的简洁优美，但是在特定的场合下：①：对10亿个不重复的整数进行排序。②：找出10亿个数字中重复的数字。当然我只有普通的服务器，就算2G的内存吧，在这种场景下，我们该如何更好的挑选数据结构和算法呢？一：问题分析这年头，大牛们写的排序算法也就那么几个，首先我们算下放在内存中要多少G: (10亿 * 32)/(1024*1024*1024*8)=3.6G，可怜的2G内存直接爆掉，所以各种神马的数据结构都玩不起来了，当然使用外排序还是可以解决问题的，由于要走IO所以暂时剔除，因为... 阅读全文

posted @ 2012-12-06 12:59 一线码农阅读(19331) 评论(30) 推荐(20) 编辑

2012年12月5日

经典算法题每日演练——第十题树状数组

摘要：有一种数据结构是神奇的，神秘的，它展现了位运算与数组结合的神奇魅力，太牛逼的，它就是树状数组，这种数据结构不是神人是发现不了的。一：概序假如我现在有个需求，就是要频繁的求数组的前n项和，并且存在着数组中某些数字的频繁修改，那么我们该如何实现这样的需求？当然大家可以往真实项目上靠一靠。① 传统方法：根据索引修改为O(1)，但是求前n项和为O(n)。②空间换时间方法：我开一个数组sum[]，sum[i]=a[1]+....+a[i]，那么有点意思，求n项和为O(1)，但是修改却成了O(N)，这是因为我的Sum[i]中牵涉的数据太多了，那么问题来了，我能不能在相应的... 阅读全文

posted @ 2012-12-05 12:50 一线码农阅读(7570) 评论(22) 推荐(8) 编辑

2012年12月3日

经典算法题每日演练——第九题优先队列

摘要：前端时间玩小爬虫的时候，我把url都是放在内存队列里面的，有时我们在抓取url的时候，通过LCS之类的相似度比较，发现某些url是很重要的，需要后端解析服务器优先处理，针对这种优先级比较大的url，普通的队列还是苦逼的在做FIFO操作，现在我们的需求就是优先级大的优先服务，要做优先队列，非堆莫属。一：堆结构 1:性质堆是一种很松散的序结构树，只保存了父节点和孩子节点的大小关系，并不规定左右孩子的大小，不像排序树那样严格，又因为堆是一种完全二叉树，设节点为i,则i/2是i的父节点，2i是i的左孩子，2i+1是i的右孩子，所以在实现方式上可以采用轻量级的数组。2：用途如果大家玩过微... 阅读全文

posted @ 2012-12-03 16:33 一线码农阅读(8421) 评论(4) 推荐(4) 编辑

2012年12月2日

经典算法题每日演练——第八题 AC自动机

摘要：上一篇我们说了单模式匹配算法KMP，现在我们有需求了，我要检查一篇文章中是否有某些敏感词，这其实就是多模式匹配的问题。当然你也可以用KMP算法求出，那么它的时间复杂度为O(c*(m+n))，c：为模式串的个数。m：为模式串的长度,n:为正文的长度，那么这个复杂度就不再是线性了，我们学算法就是希望能把要解决的问题优化到极致，这不，AC自动机就派上用场了。其实AC自动机就是Trie树的一个活用，活用点就是灌输了kmp的思想，从而再次把时间复杂度优化到线性的O(N)，刚好我前面的文章已经说过了Trie树和KMP，这里还是默认大家都懂。一：构建AC自动机同样我也用网上的经典例子，现有say sh.. 阅读全文

posted @ 2012-12-02 16:11 一线码农阅读(9494) 评论(3) 推荐(10) 编辑

2012年12月1日

经典算法题每日演练——第七题 KMP算法

摘要：在大学的时候，应该在数据结构里面都看过kmp算法吧，不知道有多少老师对该算法是一笔带过的，至少我们以前是的，确实kmp算法还是有点饶人的，如果说红黑树是变态级的，那么kmp算法比红黑树还要变态，很抱歉，每次打kmp的时候，输入法总是提示“看毛片”三个字,嘿嘿，就叫“看毛片算法”吧。一：BF算法如果让你写字符串的模式匹配，你可能会很快的写出朴素的bf算法，至少问题是解决了，我想大家很清楚的知道它的时间复杂度为O（MN），原因很简单，主串和模式串失配的时候，我们总是将模式串的第一位与主串的下一个字符进行比较，所以复杂度高在主串每次失配的时候都要回溯，图我就省略了。二：KMP算法刚才我们... 阅读全文

posted @ 2012-12-01 01:57 一线码农阅读(14668) 评论(8) 推荐(4) 编辑

2012年11月25日

6天通吃树结构—— 第五天 Trie树

摘要：很有段时间没写此系列了，今天我们来说Trie树，Trie树的名字有很多，比如字典树，前缀树等等。一：概念下面我们有and,as,at,cn,com这些关键词，那么如何构建trie树呢？从上面的图中，我们或多或少的可以发现一些好玩的特性。第一：根节点不包含字符，除根节点外的每一个子节点都包含一个字符。第二：从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。第三：每个单词的公共前缀作为一个字符节点保存。二：使用范围既然学Trie树，我们肯定要知道这玩意是用来干嘛的。第一：词频统计。可能有人要说了，词频统计简单啊，一个hash或者一个... 阅读全文

posted @ 2012-11-25 22:30 一线码农阅读(112616) 评论(17) 推荐(40) 编辑

2012年11月22日

经典算法题每日演练——第六题协同推荐SlopeOne 算法

摘要：相信大家对如下的Category都很熟悉，很多网站都有类似如下的功能，“商品推荐”,"猜你喜欢“，在实体店中我们有导购来为我们服务，在网络上我们需要同样的一种替代物，如果简简单单的在数据库里面去捞，去比较，几乎是完成不了的,这时我们就需要一种协同推荐算法，来高效的推荐浏览者喜欢的商品。一：概念 SlopeOne的思想很简单，就是用均值化的思想来掩盖个体的打分差异，举个例子说明一下：在这个图中，系统该如何计算“王五“对”电冰箱“的打分值呢？刚才我们也说了，slopeone是采用均值化的思想,也就是：R王五=4-{[(5-10)+(4-5)]/2}=7 。下面我们看看多于两项的商品，如. 阅读全文

posted @ 2012-11-22 14:43 一线码农阅读(11159) 评论(12) 推荐(6) 编辑

2012年11月11日

经典算法题每日演练——第五题字符串相似度

摘要：这篇我们看看最长公共子序列的另一个版本，求字符串相似度(编辑距离)，我也说过了，这是一个非常实用的算法，在DNA对比，网页聚类等方面都有用武之地。一：概念对于两个字符串A和B，通过基本的增删改将字符串A改成B，或者将B改成A，在改变的过程中我们使用的最少步骤称之为“编辑距离”。比如如下的字符串：我们通过种种操作，痉挛之后编辑距离为3，不知道你看出来了没有？二：解析可能大家觉得有点复杂，不好理解，我们试着把这个大问题拆分掉，将"字符串 vs 字符串“，分解成”字符 vs 字符串“，再分解成”字符 vs 字符“。<1> ”字符“vs”字符“ 这种情况是最简单的了，比如”A 阅读全文

posted @ 2012-11-11 23:45 一线码农阅读(11711) 评论(4) 推荐(7) 编辑

公告