关于Keras公用数据集的获取和使用
Keras是Tensorflow2.0的核心高阶API,其内置了一些常用的公共数据集,给开发者使用。
以波士顿房价数据集为例,其涵盖了麻省波士顿的506个不同郊区的房屋数据。有404条训练数据集和102条测试数据集。
每条数据有14个字段,包含13个属性和一个房价数据
获取波士顿房价数据集:
1 import tensorflow as tf 2 boston_housing = tf.keras.datasets.boston_housing #在线加载数据集 3 4 (train_x,train_y),(test_x,test_y) = boston_housing.load_data() #获取训练集和测试机
程序会首先Keras官网下载数据集,然后保存在默认的路径下面(C:\Users\Administrator.SG-20151030VCPR\.keras\datasets),这个路径最好不要改,反正数据也不大。
数据拿到了,就顺便看看各个属性和房价之前的关系吧,这里对每个属性和房价的关系进行可视化:
1 import tensorflow as tf 2 import matplotlib.pyplot as plt 3 boston_housing = tf.keras.datasets.boston_housing #在线加载数据集 4 5 (train_x,train_y),(_,_) = boston_housing.load_data(test_split=0) #获取训练集 6 7 title = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 8 'RAD', 'TAX', 'PTRATIO', 'B-1000', 'LSTAT'] 9 plt.figure(figsize = (12,12)) #设置画布大小为12*12英寸 10 11 for i in range(len(title)): 12 plt.subplot(4,4,i+1) #绘制 4*4 子图 13 plt.scatter(train_x[:,i], train_y) #绘制散点图 14 15 plt.xlabel(title[i]) #X轴标签 16 plt.ylabel("Price($1000)'s") #Y轴标签 17 plt.title(str(i+1)+'.'+title[i]+' - Price') #设置子图标题 18 19 plt.tight_layout()#使标题坐标轴不重叠 20 plt.suptitle('各个属性与房价的关系', x=0.5, y=1.02, fontsize=20) #全局标题 21 plt.show()
来看看结果:
然后就可以使用这些数据来进行后续的数据清洗、模型训练和结果评价了。
--------------------成功,肯定是需要一点一滴积累的--------------------