as火柴人

导航

2.2 数据的图形描绘以及处理(QQplot,归一化)

  1. QQplot

横坐标表示的是属性的其中一个测量值1,纵坐标表示另一个测量值2。散点是分位点。点的横纵坐标是这个测量值1和测量值2的分位点的取值。

from scipy import stats
from matplotlib import pyplot as plt
import statsmodels.api as sm
import numpy as np

# example with the new ProbPlot class
#对比两个不同测试值的分布,而不是看测试值满足什么既定分布
import numpy as np
X = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
Y= [1.4,1.5,2.2,2.7,3.2,3.9,4.1,4.1,4.6,4.8
,4.9,5.3,5.5,5.8,6.2,8.9,11.6,18,22.9,38.2]
x=np.array(X)
y=np.array(Y)
pp_x = sm.ProbPlot(x, fit=True)
pp_y = sm.ProbPlot(y, fit=True)
fig3 = pp_x.qqplot(other=pp_y, line='45')
plt.show()

2 normalization

  梯度下降的过程曲折,复杂的问题是因为没有同等程度的看待各个特征,即我们没有将各个特征量化到统一的区间。

  所以数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

 Min-Max Scaling和Z-score normalization是常用的标准化处理方法。

  • 指定空间的min-max scaling(1,10)

     

price

5.89

49.59

59.98

159

17.99

56.99

82.75

142.19

31

125.5

weight

1.4

1.5

2.2

2.7

3.2

3.9

4.1

4.1

4.6

4.8

 

price

4.5

22

52.9

61

33.5

328

128

142.19

229

189.4

weight

4.9

5.3

5.5

5.8

6.2

8.9

11.6

18

22.9

38.2

标准化空间为(1,10):原理公式:

将数据归一化到[a,b]区间范围的方法:

(1)首先找到样本数据Y的最小值Min及最大值Max
(2)计算系数为:k=(b-a)/(Max-Min)
(3)得到归一化到[a,b]区间的数据:norY=a+k(Y-Min)

"""normolization 1-10
"""
import numpy as np

def MaxMinNormalization(x):
	min_x=np.min(x)
	max_x=np.max(x)
	k=(10-1)/(max_x-min_x)
	norx=(x-min_x)*k+1
	return norx
nums = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
print(MaxMinNormalization(nums))

 3.评估方法

https://blog.csdn.net/hlang8160/article/details/78040311

 



posted on 2018-10-18 16:52  as火柴人  阅读(1939)  评论(0编辑  收藏  举报