三、浅层神经网络

1、神经网络概览

什么是神经网络？如下图：

神经网络的结构与逻辑回归类似，只是神经网络的层数比逻辑回归多一层，多出来的中间那层称为隐藏层或中间层。从计算上来看，神经网络的正向传播和反向传播比logistic回归多了一次重复的计算。引入新的标签：方括号上标[i]表示当前所处的层数；圆括号上标(i)表示第i个样本。

2、神经网络表示

　　下面我们讲解只有一个隐藏层的神经网络，这是一张神经网络结构图：

在一个神经网络中，当你使用监督学习训练它时，训练集包含了输入x，还有目标输出y。“隐藏层”的含义是在训练集中这些中间节点的真实数值我们是不知道的，看不到它们的数值。

现在把隐藏层输出记为a^[1]，上标从0开始。用下标表示第几个神经元，注意下标从1开始。例如a^[1]_1表示隐藏层第1个神经元（节点）。在python中，隐藏层有4个神经元就可以写成下面矩阵的形式：

当我们在计算网络的层数时，不算输入层。关于隐藏层对应的权重W^[i]和常数项b^[i]维度问题，总结：第i层的权重W^[i]维度的行等于i层神经元的个数，列等于i-1层神经元的个数；第i层常数项b^[i]的行等于第i层神经元的个数，列始终为1。

3、计算神经网络的输出

两层神经网络可以看成是逻辑回归再重复计算一次。如下图所示，逻辑回归的正向计算可以分解成计算z和a的两部分：

下面的圆圈代表了回归计算的两个步骤，神经网络重复计算这些步骤很多次：

对于两层神经网络，从输入层到隐藏层对应一次逻辑回归运算；从隐藏层到输出层对应一次逻辑回归运算。每层计算时，要注意对应的上标和下标，一般我们记上标方括号表示layer，下标表示第几个神经元。例如a^[l]_i表示第l层的第i个神经元。注意，i从1开始，l从0开始。

下面，我们将从输入层到输出层的计算公式列出来：（共4个隐藏单元）

然后，从隐藏层到输出层的计算公式为：

上述每个节点的计算都对应着一次逻辑运算的过程，分别由计算z和a两部分组成。

4、激活函数

在隐藏层和输出层可以选择激活函数，目前为止我们用的是sigma激活函数，但有时其他函数效果要好的多。我们看一些可供选择的函数。不同的激活函数有各自的优点。

sigmoid函数-（0,1）

tanh函数（双曲正切函数）-（-1,1）

- 此激活函数的平均值更接近0，类似数据中心化的效果，使数据平均值接近0，这实际让下一层的学习更方便一点。
- sigmoid函数和tanh函数都有一个缺点，如果z非常大或非常小时，那么导数的梯度（函数的斜率）可能就很小，接近0，这样会拖慢梯度下降算法。

ReLU函数（修正线性单元）-机器学习最受欢迎的工具

- 在选择激活函数时有一些经验法则，如果你的输出是0和1（二元分类），那么sigmoid函数很适合作为输出层的激活函数，然后其他所有单元都用ReLU函数，这是今天大多数人都在用的。
- ReLU的缺点是当z为负时，导数为0，但还有一个版本，带泄露的ReLU。

Leaky ReLU函数（泄露的ReLU）

- 为什么是0.01，可以把它设成学习函数的另一个参数，根据实际效果进行改动

总结：

sigmoid函数除非用于在二元分类的输出层，不然绝对不要用，或者几乎从来不用。
tanh函数几乎在所有场合都更优越。
最常用的默认激活函数是ReLU，如果你不确定用哪个，你就用这个，或者也可以试试带泄漏的ReLU。

深度学习的一个特点是在建立神经网络时经常有很多不同的选择，比如隐藏单元数、激活函数，还有如何初始化权重。当不确定哪种激活函数最有效时，可以先试试在保留交叉验证数据集上或者开发集上跑，看看哪个参数效果好，就用哪个。

5、随机初始化

当你训练神经网络时，随机初始化权重很重要，对于logistic回归，可以将群组初始化为零，但如果神经网络的各参数数组全部初始化为0，再使用梯度下降算法，那会完全无效。

一般做法是将W进行随机初始化（b可初始化为零）。python里可以使用如下语句进行W和b的初始化：

W_1 = np.random.randn((2,2))*0.01 #随机初始化 
b_1 = np.zero((2,1)) 
W_2 = np.random.randn((1,2))*0.01 
b_2 = 0

# 0.01怎么来的？实际上我们通常把权重矩阵初始化成非常小非常小的随机值，因为如果使用tanh函数或sigmoid激活函数，
# 权重太大是计算出来的值可能落在平缓部分，梯度的斜率非常小，意味着梯度下降法会非常慢，学习过程也会非常慢。

6、课后习题

构建神经网络的一般方法是：

定义神经网络结构（输入单元的数量，隐藏单元的数量等）。
初始化模型的参数
循环：

- 实施前向传播
- 计算损失
- 实现向后传播
- 更新参数（梯度下降）

import numpy as np
import matplotlib.pyplot as plt
from testCases import *
import sklearn
import sklearn.datasets
import sklearn.linear_model
from  planar_utils import plot_decision_boundary, sigmoid, load_planar_dataset, load_extra_datasets

np.random.seed(1)

# 加载数据并将其可视化
X, Y = load_planar_dataset()
plt.scatter(X[0, :], X[1, :], c=Y, s=40, cmap=plt.cm.Spectral) # 每个点的颜色将根据 Y 中的值进行着色。
# plt.show()

# 仔细查看数据
shape_X = X.shape
shape_Y = Y.shape
m = Y.shape[1]  # 训练集里面的数量

# print('X的维度为：' + str(shape_X))
# print('Y的维度为：' + str(shape_Y))
# print('数据集里面的数据有：' + str(m) + ' 个')

# 在构建完整的神经网络之前,先让我们看看逻辑回归在这个问题上的表现如何,
# 我们可以使用sklearn的内置函数来做到这一点,
clf = sklearn.linear_model.LogisticRegressionCV()  
# LogisticRegressionCV 会在不同的正则化参数(C 值)上进行交叉验证,以找到最优的正则化强度。
# 为什么转置？通常在机器学习模型中,数据集形状应为(n_samples, n_features),即每行代表一个样本,每列代表一个特征。
clf.fit(X.T,Y.T)  

# 现在将逻辑回归分类器绘制出来
plot_decision_boundary(lambda x: clf.predict(x), X, Y)  # 绘制决策边界
plt.title('Logistic Regression')  # 图标题
# plt.show()
LR_predictions = clf.predict(X.T)
# print ("逻辑回归的准确性： %d " % float((np.dot(Y, LR_predictions) + 
# 		np.dot(1 - Y,1 - LR_predictions)) / float(Y.size) * 100) +
#        "% " + "(正确标记的数据点所占的百分比)")

# 构建神经网络结构
def layer_sizes(X , Y):
    """
    参数：
     X - 输入数据集,维度为(输入的数量,训练/测试的数量)
     Y - 标签,维度为(输出的数量,训练/测试数量)
    
    返回：
     n_x - 输入层的数量
     n_h - 隐藏层的数量
     n_y - 输出层的数量
    """
    n_x = X.shape[0]
    n_h = 4
    n_y = Y.shape[0]

    return(n_x, n_h, n_y)

# # 测试Layer_sizes
# print("=========================测试layer_sizes=========================")
# X_asses , Y_asses = layer_sizes_test_case()
# (n_x,n_h,n_y) =  layer_sizes(X_asses,Y_asses)
# print("输入层的节点数量为: n_x = " + str(n_x))
# print("隐藏层的节点数量为: n_h = " + str(n_h))
# print("输出层的节点数量为: n_y = " + str(n_y))

# 初始化模型的参数
def initialize_parameters(n_x, n_h, n_y):
    """
    参数：
        n_x - 输入层节点的数量
        n_h - 隐藏层节点的数量
        n_y - 输出层节点的数量
    
    返回：
        parameters - 包含参数的字典：
            W1 - 从输入层到隐藏层的权重矩阵,维度为(n_h,n_x)
            b1 - 从输入层到隐藏层的偏向量,维度为(n_h,1)
            W2 - 从隐藏层到输出层的权重矩阵,维度为(n_y,n_h)
            b2 - 从隐藏层到输出层的偏向量,维度为(n_y,1)

    """
    np.random.seed(2)  # 指定一个随机种子,确保输出结果一样
    W1 = np.random.randn(n_h,n_x) * 0.01
    b1 = np.zeros(shape=(n_h, 1))
    W2 = np.random.randn(n_y,n_h) * 0.01
    b2 = np.zeros(shape=(n_y, 1))

    # 使用断言确保数据格式是正确的
    assert(W1.shape == ( n_h , n_x ))
    assert(b1.shape == ( n_h , 1 ))
    assert(W2.shape == ( n_y , n_h ))
    assert(b2.shape == ( n_y , 1 ))

    parameters = {"W1" : W1,
	              "b1" : b1,
	              "W2" : W2,
	              "b2" : b2 }
    
    return parameters

# # 测试initialize_parameters
# print("=========================测试initialize_parameters=========================")    
# n_x , n_h , n_y = initialize_parameters_test_case()
# parameters = initialize_parameters(n_x , n_h , n_y)
# print("W1 = " + str(parameters["W1"]))
# print("b1 = " + str(parameters["b1"]))
# print("W2 = " + str(parameters["W2"]))
# print("b2 = " + str(parameters["b2"]))

# 构建前向传播函数
def forward_propagation(X, parameters):
    """
    参数：
         X - 维度为(n_x,m)的输入数据。
         parameters - 初始化函数(initialize_parameters)的输出
    
    返回：
         A2 - 使用sigmoid()函数计算的第二次激活后的数值
         cache - 包含“Z1”,“A1”,“Z2”和“A2”的字典类型变量
     """
    W1 = parameters["W1"]
    b1 = parameters["b1"]
    W2 = parameters["W2"]
    b2 = parameters["b2"]
    # 前向传播计算A2
    Z1 = np.dot(W1 , X) + b1
    A1 = np.tanh(Z1)
    Z2 = np.dot(W2 , A1) + b2
    A2 = sigmoid(Z2)
    # 使用断言确保我的数据格式是正确的
    assert(A2.shape == (1,X.shape[1]))
    cache = {"Z1": Z1,
            "A1": A1,
            "Z2": Z2,
            "A2": A2}
        
    return (A2, cache)

# # 测试forward_propagation
# print("=========================测试forward_propagation=========================") 
# X_assess, parameters = forward_propagation_test_case()
# A2, cache = forward_propagation(X_assess, parameters)
# print(np.mean(cache["Z1"]), np.mean(cache["A1"]), np.mean(cache["Z2"]), np.mean(cache["A2"]))

# 计算损失
def compute_cost(A2,Y,parameters):
    """
    计算方程交叉熵成本,
    
    参数：
         A2 - 使用sigmoid()函数计算的第二次激活后的数值
         Y - "True"标签向量,维度为(1,数量)
         parameters - 一个包含W1,B1,W2和B2的字典类型的变量
    
    返回：
         成本 - 交叉熵成本给出方程
    """
    
    m = Y.shape[1]
    W1 = parameters["W1"]
    W2 = parameters["W2"]
    
    #计算成本
    logprobs = logprobs = np.multiply(np.log(A2), Y) + np.multiply((1 - Y), np.log(1 - A2))
    cost = - np.sum(logprobs) / m
    cost = float(np.squeeze(cost))
    
    assert(isinstance(cost,float))
    
    return cost

# 构建向后传播函数
def backward_propagation(parameters,cache,X,Y):
    """
    使用上述说明搭建反向传播函数。
    
    参数：
     parameters - 包含我们的参数的一个字典类型的变量。
     cache - 包含“Z1”,“A1”,“Z2”和“A2”的字典类型的变量。
     X - 输入数据,维度为(2,数量)
     Y - “True”标签,维度为(1,数量)
    
    返回：
     grads - 包含W和b的导数一个字典类型的变量。
    """
    m = X.shape[1]
    
    W1 = parameters["W1"]
    W2 = parameters["W2"]
    
    A1 = cache["A1"]
    A2 = cache["A2"]
    
    dZ2= A2 - Y
    dW2 = (1 / m) * np.dot(dZ2, A1.T)
    db2 = (1 / m) * np.sum(dZ2, axis=1, keepdims=True)
    dZ1 = np.multiply(np.dot(W2.T, dZ2), 1 - np.power(A1, 2))
    dW1 = (1 / m) * np.dot(dZ1, X.T)
    db1 = (1 / m) * np.sum(dZ1, axis=1, keepdims=True)
    grads = {"dW1": dW1,
             "db1": db1,
             "dW2": dW2,
             "db2": db2 }
    
    return grads

# 更新参数
def update_parameters(parameters,grads,learning_rate=1.2):
    """
    使用上面给出的梯度下降更新规则更新参数
    
    参数：
     parameters - 包含参数的字典类型的变量。
     grads - 包含导数值的字典类型的变量。
     learning_rate - 学习速率
    
    返回：
     parameters - 包含更新参数的字典类型的变量。
    """
    W1,W2 = parameters["W1"],parameters["W2"]
    b1,b2 = parameters["b1"],parameters["b2"]
    
    dW1,dW2 = grads["dW1"],grads["dW2"]
    db1,db2 = grads["db1"],grads["db2"]
    
    W1 = W1 - learning_rate * dW1
    b1 = b1 - learning_rate * db1
    W2 = W2 - learning_rate * dW2
    b2 = b2 - learning_rate * db2
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters

# 整合模型
def nn_model(X,Y,n_h,num_iterations,print_cost=False):
    """
    参数：
        X - 数据集,维度为(2,示例数)
        Y - 标签,维度为(1,示例数)
        n_h - 隐藏层的数量
        num_iterations - 梯度下降循环中的迭代次数
        print_cost - 如果为True,则每1000次迭代打印一次成本数值
    
    返回：
        parameters - 模型学习的参数,它们可以用来进行预测。
     """
     
    np.random.seed(3) #指定随机种子
    n_x = layer_sizes(X, Y)[0]
    n_y = layer_sizes(X, Y)[2]
    
    parameters = initialize_parameters(n_x,n_h,n_y)
    W1 = parameters["W1"]
    b1 = parameters["b1"]
    W2 = parameters["W2"]
    b2 = parameters["b2"]
    
    for i in range(num_iterations):
        A2 , cache = forward_propagation(X,parameters)
        cost = compute_cost(A2,Y,parameters)
        grads = backward_propagation(parameters,cache,X,Y)
        parameters = update_parameters(parameters,grads,learning_rate = 0.5)
        
        if print_cost:
            if i%1000 == 0:
                print("第 ",i," 次循环,成本为："+str(cost))
    return parameters

# 预测
def predict(parameters,X):
    """
    使用学习的参数,为X中的每个示例预测一个类
    
    参数：
		parameters - 包含参数的字典类型的变量。
	    X - 输入数据(n_x,m)
    
    返回
		predictions - 我们模型预测的向量(红色：0 /蓝色：1)
     
     """
    A2 , cache = forward_propagation(X,parameters)
    predictions = np.round(A2)
    
    return predictions

# 正式运行
parameters = nn_model(X, Y, n_h = 4, num_iterations=10000, print_cost=True)

#绘制边界
plot_decision_boundary(lambda x: predict(parameters, x.T), X, Y)
plt.title("Decision Boundary for hidden layer size " + str(4))

predictions = predict(parameters, X)
print ('准确率: %d' % float((np.dot(Y, predictions.T) + np.dot(1 - Y, 1 - predictions.T)) / float(Y.size) * 100) + '%')
plt.show()

posted @ 2024-09-16 09:59 鹤比纷恆红阅读(181) 评论(0) 收藏举报

刷新页面返回顶部

pgl6