随笔分类 -  算法

摘要:机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介... 阅读全文
posted @ 2015-03-04 10:04 快乐就好 阅读(316) 评论(0) 推荐(0) 编辑
摘要:十道海量大数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映 射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文... 阅读全文
posted @ 2014-08-22 15:04 快乐就好 阅读(1011) 评论(0) 推荐(0) 编辑
摘要:Trie树也称字典树,因为其效率很高,所以在在字符串查找、前缀匹配等中应用很广泛,其高效率是以空间为代价的。一.Trie树的原理 利用串构建一个字典树,这个字典树保存了串的公共前缀信息,因此可以降低查询操作的复杂度。 下面以英文单词构建的字典树为例,这棵Trie树中每个结点包括26个孩子结点,因为总... 阅读全文
posted @ 2014-08-22 10:12 快乐就好 阅读(225) 评论(0) 推荐(0) 编辑