摘要: 1 算法导论------中午看mit的视频,把对算法的理解加深一些2 编程之美------再看一遍,理解后,自己写出代码3 百度等各大公司的笔经,面经------查漏补缺4 自己所做的项目的相关知识------分块系统整理,理清思路5 代码感觉不能丢-------继续看mysql代码,先去看innodb死锁那一部分喽。不能一天全看算法吧?看烦了的话,找点 Software Architecutre in Practice<神书>继续学习。:)-------------------------------------------中午可以从头再开始看一遍 搜狐公开课《博弈论》《心理学导 阅读全文
posted @ 2012-07-30 10:15 Jack204 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。或者如下阐述(雪域之鹰):算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可 阅读全文
posted @ 2012-07-30 09:50 Jack204 阅读(404) 评论(0) 推荐(0) 编辑