2.2 数据的图形描绘以及处理(QQplot,归一化)
- QQplot
横坐标表示的是属性的其中一个测量值1,纵坐标表示另一个测量值2。散点是分位点。点的横纵坐标是这个测量值1和测量值2的分位点的取值。
from scipy import stats from matplotlib import pyplot as plt import statsmodels.api as sm import numpy as np # example with the new ProbPlot class #对比两个不同测试值的分布,而不是看测试值满足什么既定分布 import numpy as np X = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19 ,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4] Y= [1.4,1.5,2.2,2.7,3.2,3.9,4.1,4.1,4.6,4.8 ,4.9,5.3,5.5,5.8,6.2,8.9,11.6,18,22.9,38.2] x=np.array(X) y=np.array(Y) pp_x = sm.ProbPlot(x, fit=True) pp_y = sm.ProbPlot(y, fit=True) fig3 = pp_x.qqplot(other=pp_y, line='45') plt.show()
2 normalization
梯度下降的过程曲折,复杂的问题是因为没有同等程度的看待各个特征,即我们没有将各个特征量化到统一的区间。
所以数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
Min-Max Scaling和Z-score normalization是常用的标准化处理方法。
- 指定空间的min-max scaling(1,10)
price |
5.89 |
49.59 |
59.98 |
159 |
17.99 |
56.99 |
82.75 |
142.19 |
31 |
125.5 |
weight |
1.4 |
1.5 |
2.2 |
2.7 |
3.2 |
3.9 |
4.1 |
4.1 |
4.6 |
4.8 |
price |
4.5 |
22 |
52.9 |
61 |
33.5 |
328 |
128 |
142.19 |
229 |
189.4 |
weight |
4.9 |
5.3 |
5.5 |
5.8 |
6.2 |
8.9 |
11.6 |
18 |
22.9 |
38.2 |
标准化空间为(1,10):原理公式:
将数据归一化到[a,b]区间范围的方法:
(1)首先找到样本数据Y的最小值Min及最大值Max
(2)计算系数为:k=(b-a)/(Max-Min)
(3)得到归一化到[a,b]区间的数据:norY=a+k(Y-Min)
"""normolization 1-10 """ import numpy as np def MaxMinNormalization(x): min_x=np.min(x) max_x=np.max(x) k=(10-1)/(max_x-min_x) norx=(x-min_x)*k+1 return norx nums = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19 ,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4] print(MaxMinNormalization(nums))
3.评估方法
https://blog.csdn.net/hlang8160/article/details/78040311