数据挖掘时用特征缩小范围很重要

郑昀@玩聚RT 20091124

 

随便聊起来,说到Social数据挖掘,有一点小小的见解,请看:

我们在中国大陆考虑从social数据挖掘寻找新价值的时候,一般要考虑两个点:
1、是否有足够多的数据;
2、这些数据如何证明是有效/有价值的;或者说你能用什么办法清洗数据。

一般来说,多数idea遇到第一个问题时就败了。

OneRiot或者之所以有用,之所以他的Pulse Rank大家还觉得有点意思,就是因为不管搜索什么,人家英文数据都足够多。数据寥寥无几,什么Rank、什么排序就一点意义都没有了。所以我曾经说过机器智能能够进入的垂直领域特点之一就是『信息源:网络资讯足够丰富,碎片多且分散』,数据少的话,根本不需要机器智能,雇一个编辑就全部搞定了,而且数据变化少,你机器加工半天搞出来的数据,人家其他网站转眼就能给你copy/paste走。

 

过了第一个点,但没有特征作为入口的话,第一,直接考验你的机器并行处理和索引能力,第二,你需要花费大量时间处理垃圾数据,这完全是浪费精力,因为你本可以干点别的。所以对于机器智能来说。需要从一个海量集合中走捷径缩小计算范围。这是基本处理方法。

即『面对海量数据的情况下,要先从中用特征和规则筛选和清洗数据』。

 

推荐阅读:

1、语义与特征

National Geographic's International Photography Contest 2009

posted @ 2009-11-25 02:33  老兵笔记  阅读(1732)  评论(0编辑  收藏  举报