Machine Learning数据标准化方法、聚类方法、分类方法、回归方法总结

数据标准化的方法：

（1）离差标准化(最大最小值标准化）
（2）标准差标准化
（3）归一化标准化
（4）二值化标准化
（5）独热编码标准化

聚类的方法：

（1）划分法（k-means算法（k-均值算法），k-MEDOIDS算法（k-中心），CLARANS算法）
（2）层次分析方法（BIRCH算法，cure算法）
（3）基于密度的方法（DBSCAN算法，DENCLUS算法）
（4）基于网格的方法（STING算法，CLIOUE算法（聚类高维空间））

聚类模型评价的指标：

（1）兰德系数（ARI评价法），需要真实值，最佳值为1，python里的sklearm函数adjust_rand_score
（2）互信息（AMI评价法），需要真实值，最佳值为1，python里的sklearm函数adjust_mutuai_info_score
（3）V-measure评价法，需要真实值，最佳值为1，python里的sklearm函数completeness_score
（4）FMI评价法，需要真实值，最佳值为1，python里的sklearm函数fowlkes_mallows_score
（5）轮廓系数评价法，不需要真实值，畸变程度最大，python里的sklearm函数silhouette_score
（6）Calinski- Harabasz指数评价法，不需要真实值，相对较大，python里的sklearm函数calinski_harabaz_core

Tips：评价的标准是组内的相似性越大，组间相似性越小，前四种方法因为有真实值得参与相对于后两种更具有说服力，那么当有真实值得参与时聚类的评价可以等同于分类算法的评价，轮廓系数在不考虑业务情况下得分越高越好，最高得分是1

分类模型的方法：

（1）逻辑斯蒂回归，在python里的模块为linear_model,函数名为logisticRegression
（2）支持向量机，在python里的模块为SVM ，函数名为SVC
（3） k最近邻分类，在python里的模块为neighbors ，函数名为KNeighborsClassifier
（4）高斯朴素贝叶斯，在python里的模块为naive_bayes ，函数名为GaussiaNB
（5）分类决策树，在python里的模块为tree ，函数名为Decision Tree Classifier
（6）随机森林，在python里的模块为ensemble ，函数名为RandomForestClassifier
（7）梯度提升分类树，在python里的模块为ensemble ，函数名为GrndientBoostingClassidier

分类模型评价的指标：

（1） precision（精确率），最佳值为1，sklearn函数metrics.precision_score
（2）Recall(召回率)，最佳值为1，sklearn函数metrics.recall_score
（3）F1 值，最佳值为1 ，sklearn函数metrics.f1_score
（4）Cohen’s Kappa系数，最佳值为1，sklearn.cohen_kappa_score
（5）ROC曲线，最靠近有轴，在sklearn。roc_curve

回归模型的方法：

线性回归、非线性回归、logistics回归、岭回归、主成分回归
线性回归，在python里的模块linear_model, 函数为linearRegression
支持向量机回归，在python里的模块svm, 函数为SVR
最近岭回归、回归决策树、随机森林回归、梯度提升回归树

回归模型的评价指标：

方法名称	最优值	sklearn函数
平均绝对误差	0.0	metrics. mean_absolute_error
均方误差	0.0	metrics. mean_squared_error
中值绝对误差	0.0	metrics. median_absolute_error
可解释方差值	1.0	metrics. explained_variance_score
R方值，确定系数	1.0	metrics. r2_score

Tips：回归模型的评价不同于分类模型，虽然都是对真实在进行对比，但是由于回归模型的预测结果的真实值都是线性的，不能够求取precision，recall，和f1等值评价，回归模型拥有自己的评价指标。

posted @ 2019-05-10 14:31 LSKReno 阅读(812) 评论(0) 收藏举报

刷新页面返回顶部

Reno's Blog