随笔分类 -  树结构专题

摘要:很有段时间没写此系列了,今天我们来说Trie树,Trie树的名字有很多,比如字典树,前缀树等等。一:概念 下面我们有and,as,at,cn,com这些关键词,那么如何构建trie树呢?从上面的图中,我们或多或少的可以发现一些好玩的特性。 第一:根节点不包含字符,除根节点外的每一个子节点都包含一个字符。 第二:从根节点到某一节点,路径上经过的字符连接起来,就是该节点对应的字符串。 第三:每个单词的公共前缀作为一个字符节点保存。二:使用范围 既然学Trie树,我们肯定要知道这玩意是用来干嘛的。 第一:词频统计。 可能有人要说了,词频统计简单啊,一个hash或者一个... 阅读全文
posted @ 2012-11-25 22:30 一线码农 阅读(112530) 评论(17) 推荐(40) 编辑
摘要:我们知道AVL树为了保持严格的平衡,所以在数据插入上会呈现过多的旋转,影响了插入和删除的性能,此时AVL的一个变种伸展树(Splay)就应运而生了,我们知道万事万物都遵循一个“八二原则“,也就是说80%的人只会用到20%的数据,比如说我们的“QQ输入法”,平常打的字也就那么多,或许还没有20%呢。一:伸展树1:思想 伸展树的原理就是这样的一个”八二原则”,比如我要查询树中的“节点7”,如果我们是AVL的思路,每次都查询“节点7”,那么当这棵树中的节点越来越多的情况下就会呈现下旋,所以复杂度只会递增,伸展树的想法就是在第一次查询时树里面会经过一阵痉挛把“节点7”顶成“根节点”,操作类似A... 阅读全文
posted @ 2012-08-04 22:30 一线码农 阅读(19604) 评论(9) 推荐(18) 编辑
摘要:我们知道,二叉查找树相对来说比较容易形成最坏的链表情况,所以前辈们想尽了各种优化策略,包括AVL,红黑,以及今天要讲的Treap树。 Treap树算是一种简单的优化策略,这名字大家也能猜到,树和堆的合体,其实原理比较简单,在树中维护一个"优先级“,”优先级“采用随机数的方法,但是”优先级“必须满足根堆的性质,当然是“大根堆”或者“小根堆”都无所谓,比如下面的一棵树:从树中我们可以看到:①:节点中的key满足“二叉查找树”。②:节点中的“优先级”满足小根堆。一:基本操作1:定义 1 #region Treap树节点 2 /// <summary> 3 //... 阅读全文
posted @ 2012-07-30 02:01 一线码农 阅读(23522) 评论(6) 推荐(19) 编辑
摘要:上一篇我们聊过,二叉查找树不是严格的O(logN),导致了在真实场景中没有用武之地,谁也不愿意有O(N)的情况发生,作为一名码农,肯定会希望能把“范围查找”做到地球人都不能优化的地步。 当有很多数据灌到我的树中时,我肯定会希望最好是以“完全二叉树”的形式展现,这样我才能做到“查找”是严格的O(logN),比如把这种”树“调正到如下结构。 这里就涉及到了“树节点”的旋转,也是我们今天要聊到的内容。一:平衡二叉树(AVL)1:定义 父节点的左子树和右子树的高度之差不能大于1,也就是说不能高过1层,否则该树就失衡了,此时就要旋转节点,在编码时,我们可以记录当前节点的高度,比如空节... 阅读全文
posted @ 2012-07-22 19:58 一线码农 阅读(58526) 评论(45) 推荐(36) 编辑
摘要:一直很想写一个关于树结构的专题,再一个就是很多初级点的码农会认为树结构无用论,其实归根到底还是不清楚树的实际用途。一:场景:1:现状 前几天我的一个大学同学负责的网站出现了严重的性能瓶颈,由于业务是写入和读取都是密集型,如果做缓存,时间间隔也只能在30s左右,否则就会引起客户纠纷,所以同学也就没有做缓存,通过测试发现慢就慢在数据读取上面,总共需要10s,天啊...原来首页的加载关联到了4张表,而且表数据中最多的在10w条以上,可以想象4张巨大表的关联,然后就是排序+范围查找等等相关的条件,让同学抓狂。2:我个人的提供解决方案① 读取问题 既然不能做缓存,那没办法,我们需要自己... 阅读全文
posted @ 2012-07-21 15:44 一线码农 阅读(44030) 评论(47) 推荐(55) 编辑