数据挖掘几个入门级的算法的总结(优缺点)
监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络
非监督学习算法的代表有聚类算法和特征矩阵
可以从以下几个方面来比较算法:
1.支持增量式训练:在收录新的数据后能自行调整,修正判断,提高准确率而不需要重新训练
2.特征组合:能够响应特征组合,作出更精确的判断
3.是否是黑盒技术:指算法的中间过程是否易于理解,决策树算法易于理解,而SVM则像天书
按照上述角度比较监督学习算法,在括号内还会备注算法的其他特点:
1.朴素贝叶斯网络:支持,不支持,否(典型用途:垃圾邮件分类)
2.决策树:不支持,支持,否(不擅长对数值结果进行预测,典型用途:用户行为分析)
3.神经网络:不支持,支持,是(难于判断训练的比率,典型用途:根据用户点击结果优化搜索引擎)
4.SVM:不支持,支持,是(适用于高维和大数据样本,难点在于寻找最佳核变换函数,典型用途:社交网站的用户分类)
5.KNN:支持,不支持,否(确定各个特征的比重即缩放因子很复杂,典型用途:预测价格)
非监督学习算法:
1.层次合并:不停地合并相近项,产生树,对于大规模数据可以先抽取部分数据进行层次合并,然后把其余的数据根据距离分配到各个簇中去。
2.K均值聚类:不断修正聚类点的位置直到收敛(聚类点的位置不变),种子的数目和初始位置的选择很重要
3.特征矩阵:利用矩阵的因式分解获取特征和特征的权重
推荐阅读《集体智慧编程》,《Web数据挖掘》