摘要: 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏... 阅读全文
posted @ 2015-04-21 13:31 一束光 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小... 阅读全文
posted @ 2015-04-21 09:24 一束光 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 一:如果是小文件,可以一次性读入到数组中,使用方便的数组计数函数进行词频统计(假设文件中内容都是空格隔开的单词): <?php $str = file_get_contents("/path/to/file.txt"); //get string from file pre... 阅读全文
posted @ 2015-04-21 08:38 一束光 阅读(861) 评论(0) 推荐(0) 编辑

友情链接

CFC4N