摘要: 基数计数(cardinality counting)是实际应用中一种常见的计算场景,在数据分析、网络监控及数据库优化等领域都有相关需求。精确的基数计数算法由于种种原因,在面对大数据场景时往往力不从心,因此如何在误差可控的情况下对基数进行估计就显得十分重要。目前常见的基数估计算法有Linear Cou... 阅读全文
posted @ 2014-09-02 23:35 mmcmmc 阅读(1691) 评论(0) 推荐(0) 编辑
摘要: 在所有具有性能优化的数据结构中,我想大家使用最多的就是hash表,是的,在具有定位查找上具有O(1)的常量时间,多么的简洁优美,但是在特定的场合下:①:对10亿个不重复的整数进行排序。②:找出10亿个数字中重复的数字。当然我只有普通的服务器,就算2G的内存吧,在这种场景下,我们该如何更好的挑选数据结... 阅读全文
posted @ 2014-09-02 22:14 mmcmmc 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 在大学的时候,应该在数据结构里面都看过kmp算法吧,不知道有多少老师对该算法是一笔带过的,至少我们以前是的,确实kmp算法还是有点饶人的,如果说红黑树是变态级的,那么kmp算法比红黑树还要变态,很抱歉,每次打kmp的时候,输入法总是提示“看毛片”三个字,嘿嘿,就叫“看毛片算法”吧。一:BF算法 如... 阅读全文
posted @ 2014-09-02 17:43 mmcmmc 阅读(357) 评论(0) 推荐(0) 编辑