摘要: 今天,有个同学向我咨询大数据的一些面试题,其中一类比较有代表性比如判断是否在集合内,比如10个url,判断一个url是否在集合内,还比如有个1~100万个连续无序数字,随机取出里面的N个,求这N个数字等等。这类问题都需要一个大的数据集合,而且每个数据单元都很小,比如一个int 。很大程度上,这类问题可以用Bitmap或者Bloomfilter来做,基本思想就是开辟一块大内存,然后利用一个byte里的8个bit来实现按位标记元素。因为地址空间都是连续的,所以查找都是O(1)的。这里需要说的是,BloomFilter判断属不属于集合,在理论上是存在误判的,如果要求数据100%正确,则不要使用B.. 阅读全文
posted @ 2013-03-22 13:49 下里巴人or知己 阅读(405) 评论(0) 推荐(0) 编辑
摘要: SQL Server 2008 R2是微软数据库产品的最新版本,目前已发布社区预览版,在这个版本中,有以下十大特性值得我们关注。AD:2013大数据全球技术峰会低价抢票中确认将于五月发布的Microsoft SQL Server 2008 R2是SQL Server数据库的最新版本,本文将介绍SQL Server 2008 R2的10大新特性,R2标志表示这是SQL Server的一个中间版本,而不是一个主版本,但R2版本一样为DBA和开发人员提供了大量有趣的新功能。在写本文的时候,R2已经处于社区发布版本(CTP),除了新功能外,也发布了两个新版本:SQL Server 2008 R2 Da 阅读全文
posted @ 2013-03-22 13:42 下里巴人or知己 阅读(388) 评论(0) 推荐(0) 编辑