摘要: 最近拿到一大堆数据,在对其做完MapReduce统计后,需要提炼一些有价值的数据出来使用。1. 同一数据重复出现,是否大堆一定概率或者重现数量达到某个范围,就能确定该数据是有效的呢?2. 数据的时间有效性。若这组数据是跟时间相关的,时间这个参数是否需要考虑进去,具体的时间参考值又需要如何定义呢?3. 随机出现的干扰数据,是否也有一些规律性呢?一旦这些干扰数据消失,是好事还是坏事呢?4. 海量数据统... 阅读全文
posted @ 2009-08-20 00:20 MK2 阅读(490) 评论(0) 推荐(1) 编辑