数据挖掘时用特征缩小范围很重要

郑昀@玩聚RT 20091124

随便聊起来，说到Social数据挖掘，有一点小小的见解，请看：

我们在中国大陆考虑从social数据挖掘寻找新价值的时候，一般要考虑两个点：
1、是否有足够多的数据；
2、这些数据如何证明是有效/有价值的；或者说你能用什么办法清洗数据。

一般来说，多数idea遇到第一个问题时就败了。

OneRiot或者之所以有用，之所以他的Pulse Rank大家还觉得有点意思，就是因为不管搜索什么，人家英文数据都足够多。数据寥寥无几，什么Rank、什么排序就一点意义都没有了。所以我曾经说过机器智能能够进入的垂直领域特点之一就是『信息源：网络资讯足够丰富，碎片多且分散』，数据少的话，根本不需要机器智能，雇一个编辑就全部搞定了，而且数据变化少，你机器加工半天搞出来的数据，人家其他网站转眼就能给你copy/paste走。

过了第一个点，但没有特征作为入口的话，第一，直接考验你的机器并行处理和索引能力，第二，你需要花费大量时间处理垃圾数据，这完全是浪费精力，因为你本可以干点别的。所以对于机器智能来说。需要从一个海量集合中走捷径缩小计算范围。这是基本处理方法。