数据标准化

意义:

     1. 数据的量纲不同,数量级别差别很大

     2. 平衡各特征的贡献:距离、协方差,是因为要使各特征贡献一致所以使用标准化

     3. 加快梯度下降求最优解的速度

方法:

   1.min-max标准化:

               比较适用在数值比较集中的情况

               不涉及距离度量、协方差计算、数据不符合正太分布的时候

    2. z-score标准化:

              在分类、聚类,算法中需要使用距离来度量相似性的时候

              使用PCA(协方差分析)技术进行降维的时候

   3. 非线性归一化:

          在数据分化比较大的场景,有些数值很大

           log、指数,正切

适用场景:

       1.分类:KNN

       2.计算距离:聚类,K-means

       3. 梯度优化来获得最优解:   支持向量机(SVM),

                                                    逻辑回归(logistic regression)

                                                    感知器(perception)

                                                    神经网络(neural networks 

        4.协方差:主成分分析(principal component analysis)

                          线性判别回归(linear discriminant analysis)

                         核主成分分析kernel principal component analysis

          

   

         

posted on 2018-11-15 15:08  happygril3  阅读(176)  评论(0编辑  收藏  举报

导航