4.1 机器学习的四个分支

4.1.1 监督学习

含义:给定一组样本,它可以学会将输入数据映射到已知目标。

常见监督学习有:分类、回归、序列生成、语法树预测、目标检测、图像分割。

 

4.1.2 无监督学习

含义:是指在没有i目标的情况下寻找输入数据的有趣变换,其目的在于数据可视化、数据压缩、数据去噪或更好地理解数据中的相关性。

常见无监督学习有:降维、聚类。

 

4.1.3 自监督学习

含义:是没有人工标注的标签的监督学习,可以看作没有人参与的监督学习。

常见自监督学习有:自编码器、时序监督学习。

 

4.1.4 强化学习

含义:在强化学习中,智能体接收有关其环境的信息,并学会选择使某种奖励最大化的行动。

主要应用于游戏领域。

 

4.2 评估机器学习模型

4.2.1 训练集、验证集和测试集

(1)简单的留出验证:留出一定比例的数据作为测试集。在剩余的数据上训练模型,然后再测试机上评估模型。

 1 from keras import models
 2 from keras import layers
 3 import numpy as np
 4 
 5 data = list(range(60000)) #模拟全部样本
 6 num_validation_samples = 10000 #验证集个数
 7 num_test_samples = 10000 #测试集个数
 8 np.random.shuffle(data) #随机打乱data
 9 
10 validation_data = data[:num_validation_samples]#验证集 10000个样本
11 training_data = data[num_validation_samples:-num_test_samples]#训练集 40000个样本
12 test_data = data[num_test_samples:]#测试集 10000个样本
13 
14 #这里是示例,可以用keras建立更复杂的网络结构
15 def get_model():
16     model = models.Sequential()
17     model.add(layers.Dense(1,activation='relu',input_shape=(1,)))
18     model.compile(optimizer='rmsprop',loss='mse',metrics=['mae'])
19     return model
20 
21 model = get_model()
22 
23 validation_score = model.evaluate(validation_data)
24 
25 #调节模型、重新训练、评估等过程之后
26 
27 model = get_model()
28 model.fit(np.concatenate([training_data,validation_data]))
29 
30 test_score = model.evaluate(test_data)

 

(2)K折验证:将数据划分为大小相同的K个分区,对于每个分区i,再剩余的K-1个分区上训练模型,然后在分区i上评估模型。

 1 from keras import models
 2 from keras import layers
 3 import numpy as np
 4 
 5 data = list(range(60000)) #模拟全部样本
 6 num_test_samples = 10000 #测试集个数
 7 data = data[:-num_test_samples]
 8 test_data = data[num_test_samples:]#测试集 10000个样本
 9 k = 4
10 num_validation_samples = len(data) // k
11 np.random.shuffle(data)
12 
13 validation_scores = []
14 
15 #这里是示例,可以用keras建立更复杂的网络结构
16 def get_model():
17     model = models.Sequential()
18     model.add(layers.Dense(1,activation='relu',input_shape=(1,)))
19     model.compile(optimizer='rmsprop',loss='mse',metrics=['mae'])
20     return model
21 
22 for fold in range(k):
23     validation_data = data[num_validation_samples * fold:num_validation_samples * (fold + 1)]
24     training_data = data[:num_validation_samples * fold] + data[num_validation_samples * (fold + 1):]
25     model = get_model()
26     model.fit(training_data)
27     validation_score = model.evaluate(validation_data)
28     validation_scores.append(validation_score)
29 
30 validation_score = np.average(validation_scores)
31 
32 model = get_model()
33 model.fit(np.concatenate([training_data,validation_data]))
34 test_score = model.evaluate(test_data)

 

(3)带有打乱数据的重复K折验证:如果可用的数据相对较少,而你又需要尽可能精确地评估模型,那么可以选择带有打乱数据的重复K折验证。

具体做法是多次使用K折验证,在每次将数据划分为K个分区之前都先将数据打乱。最终分数是每次K折验证分数的平均值。

 1 from keras import models
 2 from keras import layers
 3 import numpy as np
 4 
 5 data = list(range(60000)) #模拟全部样本
 6 num_test_samples = 10000 #测试集个数
 7 data = data[:-num_test_samples]
 8 test_data = data[num_test_samples:]#测试集 10000个样本
 9 epoch = 3
10 k = 4
11 num_validation_samples = len(data) // k
12 np.random.shuffle(data)
13 
14 validation_scores = []
15 
16 #这里是示例,可以用keras建立更复杂的网络结构
17 def get_model():
18     model = models.Sequential()
19     model.add(layers.Dense(1,activation='relu',input_shape=(1,)))
20     model.compile(optimizer='rmsprop',loss='mse',metrics=['mae'])
21     return model
22 for e in range(epoch):
23     for fold in range(k):
24         np.random.shuffle(data)
25         validation_data = data[num_validation_samples * fold:num_validation_samples * (fold + 1)]
26         training_data = data[:num_validation_samples * fold] + data[num_validation_samples * (fold + 1):]
27         model = get_model()
28         model.fit(training_data)
29         validation_score = model.evaluate(validation_data)
30         validation_scores.append(validation_score)
31 
32 validation_score = np.average(validation_scores)
33 
34 model = get_model()
35 model.fit(np.concatenate([training_data,validation_data]))
36 test_score = model.evaluate(test_data)

如代码所示:循环变成了两层循环,在24行每次都要随机打乱训练集data中的数据。

 

4.2.2 评估模型的注意事项

(1)数据代表性:如果数据本身是按类别连续分布的,需要随机打乱数据。

(2)时间箭头:如果要根据过去预测未来,不应该随机打乱数据,要保证测试集中所有数据都i晚于训练集数据。

(3)数据冗余:保证训练集和验证集之间没有交集。

 

4.3 数据预处理、特征工程和特征学习 

4.3.1 神经网络的数据预处理

数据预处理的目的是使原始数据更适于用神经网络处理,包括向量化、标准化、处理缺失值和特征提取。

(1)向量化:神经网络所有输入和目标都必须是浮点数/整数的张量,无论处理什么数据,都必须将其转换为张量。

(2)值标准化:输入数据赢具有以下特征(取值较小,同质性)。

(3)处理缺失值:如果测试数据中有缺失值,而训练数据没有缺失值,需要人为在训练数据制造缺失值。

 

4.3.2 特征工程

含义:是指将数据输入模型之前,利用自己关于数据和机器学习算法的知识对数据进行硬编码的转换,以改善模型的效果。

本质:用更简单的方式表述问题,从而使问题变得更容易。

现代深度学习,大部分特侦工程都是不需要的,因为神经网络能从原始数据中自动提取有用特征,

但仍然需要特征工程,原因是:

(1)良好的特征仍然可以让你用更少的资源更优雅的解决问题。

(2)良好的特征可以让你用更少的数据解决问题。

 

4.4 过拟合与欠拟合

机器学习的根本问题是优化和泛化之间的对立。优化是指调节模型以在训练数据上得到最佳的性能,而泛化是指训练好的模型在前所未见的数据上的性能好坏。

解决过拟合的常用方式:

(1)获取更多的训练数据。

(2)正则化

 

4.4.1 减小网络大小

减小模型的大小(减少模型中可学习参数的个数)

但网络规模太小又会导致欠拟合,因此需要找到网络模型的一个适中的规模。

一般的工作流程是开始时选择相对较少的层和参数,然后逐渐增加层的大小或增加新层,知道这种增加对验证损失的影响变得很小。

 

4.4.2 添加权重正则化

奥卡姆剃刀原理:如果一件事情有两种解释,那么可能正确的解释就是最简单的哪个,即假设更少的哪个。

权重正则化:强制让模型权重只能取较小的值,从而限制模型的复杂度,使这种权重的分布更加规则。

(1)L1正则化:添加的成本与权重系数的绝对值成正比

(2)L2正则化:添加的成本与权重系数的平方成正比。

 1 from keras import regularizers
 2 from keras import models
 3 from keras import layers
 4 import matplotlib.pyplot as plt
 5 from keras.datasets import imdb
 6 import numpy as np
 7 
 8 (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
 9 
10 def vectorize_sequences(sequences, dimension=10000):
11     # Create an all-zero matrix of shape (len(sequences), dimension)
12     results = np.zeros((len(sequences), dimension))
13     for i, sequence in enumerate(sequences):
14         results[i, sequence] = 1.  # set specific indices of results[i] to 1s
15     return results
16 
17 # Our vectorized training data
18 x_train = vectorize_sequences(train_data)
19 # Our vectorized test data
20 x_test = vectorize_sequences(test_data)
21 # Our vectorized labels
22 y_train = np.asarray(train_labels).astype('float32')
23 y_test = np.asarray(test_labels).astype('float32')
24 
25 original_model = models.Sequential()
26 original_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
27 original_model.add(layers.Dense(16, activation='relu'))
28 original_model.add(layers.Dense(1, activation='sigmoid'))
29 
30 original_model.compile(optimizer='rmsprop',
31                        loss='binary_crossentropy',
32                        metrics=['acc'])
33 
34 original_hist = original_model.fit(x_train, y_train,
35                                    epochs=20,
36                                    batch_size=512,
37                                    validation_data=(x_test, y_test))
38 
39 epochs = range(1, 21)
40 original_val_loss = original_hist.history['val_loss']                     
41 
42 
43 l2_model = models.Sequential()
44 l2_model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
45                           activation='relu', input_shape=(10000,)))
46 l2_model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
47                           activation='relu'))
48 l2_model.add(layers.Dense(1, activation='sigmoid'))
49 
50 l2_model.compile(optimizer='rmsprop',
51                  loss='binary_crossentropy',
52                  metrics=['acc'])
53 
54 l2_model_hist = l2_model.fit(x_train, y_train,
55                              epochs=20,
56                              batch_size=512,
57                              validation_data=(x_test, y_test))
58 
59 
60 l2_model_val_loss = l2_model_hist.history['val_loss']
61 
62 plt.plot(epochs, original_val_loss, 'b+', label='Original model')
63 plt.plot(epochs, l2_model_val_loss, 'bo', label='L2-regularized model')
64 plt.xlabel('Epochs')
65 plt.ylabel('Validation loss')
66 plt.legend()
67 
68 plt.show()
69 
70 
71 from keras import regularizers
72 
73 # L1 regularization
74 regularizers.l1(0.001)
75 
76 # L1 and L2 regularization at the same time
77 regularizers.l1_l2(l1=0.001, l2=0.001)

 

kernel_regularizer=regularizers.l2(0.001)的意思时该层权重矩阵的每个系数都会使网络总损失增加0.001 * weight_coefficient_value。
注意这个惩罚只在训练时添加,所以这个网络的训练损失会比测试损失大很多。
 

4.4.3 添加dropout正则化

dropout时神经网络最有效也最常用的正则化方法之一,就是在训练过程中随机将该层的一些输出特征舍弃。

dropout比率是被设为0的特征所占的比例,通常在0.2~0.5范围内。

测试时没有单元被舍弃,而该层的输出值需要按dropout比例缩小。

 1 from keras import regularizers
 2 from keras import models
 3 from keras import layers
 4 import matplotlib.pyplot as plt
 5 from keras.datasets import imdb
 6 import numpy as np
 7 
 8 (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
 9 
10 def vectorize_sequences(sequences, dimension=10000):
11     # Create an all-zero matrix of shape (len(sequences), dimension)
12     results = np.zeros((len(sequences), dimension))
13     for i, sequence in enumerate(sequences):
14         results[i, sequence] = 1.  # set specific indices of results[i] to 1s
15     return results
16 
17 # Our vectorized training data
18 x_train = vectorize_sequences(train_data)
19 # Our vectorized test data
20 x_test = vectorize_sequences(test_data)
21 # Our vectorized labels
22 y_train = np.asarray(train_labels).astype('float32')
23 y_test = np.asarray(test_labels).astype('float32')
24 
25 
26 original_model = models.Sequential()
27 original_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
28 original_model.add(layers.Dense(16, activation='relu'))
29 original_model.add(layers.Dense(1, activation='sigmoid'))
30 
31 original_model.compile(optimizer='rmsprop',
32                        loss='binary_crossentropy',
33                        metrics=['acc'])
34 
35 original_hist = original_model.fit(x_train, y_train,
36                                    epochs=20,
37                                    batch_size=512,
38                                    validation_data=(x_test, y_test))
39 
40 epochs = range(1, 21)
41 original_val_loss = original_hist.history['val_loss']      
42 
43 dpt_model = models.Sequential()
44 dpt_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
45 dpt_model.add(layers.Dropout(0.5))
46 dpt_model.add(layers.Dense(16, activation='relu'))
47 dpt_model.add(layers.Dropout(0.5))
48 dpt_model.add(layers.Dense(1, activation='sigmoid'))
49 
50 
51 
52 dpt_model.compile(optimizer='rmsprop',
53                   loss='binary_crossentropy',
54                   metrics=['acc'])
55 
56 dpt_model_hist = dpt_model.fit(x_train, y_train,
57                                epochs=20,
58                                batch_size=512,
59                                validation_data=(x_test, y_test))                  
60 
61 
62 dpt_model_val_loss = dpt_model_hist.history['val_loss']
63 
64 plt.plot(epochs, original_val_loss, 'b+', label='Original model')
65 plt.plot(epochs, dpt_model_val_loss, 'bo', label='Dropout-regularized model')
66 plt.xlabel('Epochs')
67 plt.ylabel('Validation loss')
68 plt.legend()
69 
70 plt.show()      

 

4.5 机器学习的通用工作流程

4.5.1 定义问题,收集数据集

4.5.2 选择衡量成功的指标

4.5.3 确定评估方法

4.5.4 准备数据

4.5.5 开发比基准更好的模型

4.5.6 扩大模型规模:开发过拟合的模型

4.5.7 模型正则化与调节超参数

 

posted on 2021-01-24 09:28  Sempron2800+  阅读(168)  评论(0编辑  收藏  举报