美国2006年机器学习和知识发现年会中的现场投票结果可以给我们一点线索。下图是最近12个月中使用各种算法的人次(共203人投票)。
决策树 Decision Trees/Rules (127) 62.60%
回归 Regression (104) 51.20%
聚类 Clustering (102) 50.20%
描述性统计分析 Statistics (descriptive) (94) 46.30%
可视技术Visualization (66) 32.50%
关联法则 Association rules (53) 26.10%
时序 Sequence/Time series analysis (35) 17.20%
神经网络 Neural Nets (35) 17.20%
支持向量机 SVM (32) 15.80%
贝叶斯 Bayesian (32) 15.80%
Boosting (30) 14.80%
近邻 Nearest Neighbor (26) 12.80%
模型合成 Hybrid methods (24) 11.80%
其它 Other (23) 11.30%
遗传算法Genetic algorithms (23) 11.30%
Bagging (22) 10.80%
由于是自愿投票,对投票人的背景,行业,和工作领域没有任何控制,因此这个结果在代表性方面当然是不够完整的。但是,我们还是可以通过这个调查粗略了解到目前数据挖掘算法的使用态势。总的来说,用于分类和预测的决策树和回归算法,以及用于描述的聚类分析占有主导地位。对于有志于从事数据挖掘的毕业生和专业人士来说,掌握和精通这几种算法有最广阔的应用前景。
决策树和逻辑回归从技术角度看,都不是太高深的算法。但是能得到普遍的应用,说明它们在解决不同行业,不同领域中的数据挖掘问题上都有很好的功效,说明企业的管理人员对这些算法的接受程度较好;也反映了企业拥有的数据并不是复杂到非需要高深的算法才可以对付的程度。此外不可忽略的是,这些算法在计算速度上有一定优势。