Tensorflow变量管理及模型持久化，实现实现线性回归

变量管理

随着神经网络的结构更加复杂，参数更多时，需要一个更好的方式来传递和管理变量。在TF中提供了通过变量的名字来创建或者获取一个变量的机制，通过这个机制不同函数可以直接通过变量的名字来直接使用变量。这机制主要是通过tf.get_variable和tf.variable_scope实现的。

tf.get_variable

当tf.get_variable用来创建变量时，其功能与tf.Variable是等价的。比如：

v = tf.get_variable('v', shape=[1], initializer=tf.constant_initializer(1.0))
v = tf.Variable(tf.constant(1.0, shape=[1], name='v'))

其中

tf.constant(value,dtype=None,shape=None,name='Const')。创建一个常量tensor,按照给出value来赋值，可以用shape来指定其形状。value可以时一个数，也可以是一个list。如果是一个数，那么这个常量中所有值按该数来赋值。如果是list,那么len(value)一定要小于等于shape展开后的长度。赋值时，先将value中的值逐个存入。不够的部分，则全部存入value的最后一个值。

tf.Variable和tf.get_variable最大的区别在于指定变量名称的参数。tf.Variable的变量名称是一个可选的参数，通过name='v'给出。但是tf.get_variable的变量名称是一个必填的参数，tf.get_variable会根据这个名字去创建参数，因此不能创建一个已经存在的名字，否则就会报错。

tf.variable_scope

如果需要通过tf.get_variable来获取一个已经创建的变量，则需要通过tf.variable_scope来生成一个上下文管理器来控制tf.get_variable函数获取已创建的变量：

#在名字为foo的命名空间中创建名字为v的变量
with tf.variable_scope('foo'):
    v = tf.get_variable('v',[1],initializer=tf.constant_initializer(1.0))
 
#由于已经存在v，所以以下代码将会报错
with tf.variable_scope('foo'):
    v = tf.get_variable('v',[1])
#Variable foo/v already exists, disallowed. Did you mean to set reuse=True in VarScope?
 
#在生成上下文管理器时，将reuse设置为True，即可获取变量
with tf.variable_scope('foo', reuse=True):
    v = tf.get_variable('v',[1])

tf.variable_scope函数会创建一个TF的命名空间，在命名空间中创建的变量名称都会带上这个命名空间作为前缀，所以这个函数也提供了一个管理变量命名空间的方式：

v1= tf.get_variable('v', [1])
print(v1.name)
#v:0
#0表示是这个变量运算的第一个结果
 
with tf.variable_scope('foo'):
    v2 = tf.get_variable('v', [1])
    print(v2.name)
#foo/v:0
 
with tf.variable_scope('foo'):
    with tf.variable_scope('bar'):
        v3 = tf.get_variable('v', [1])
        print(v3.name)
#foo/bar/v:0

tf.variable_scope的参数reuse=True时，tf.get_variable将直接且只能获取已经存在的变量，若变量不存在，就会报错。

with tf.variable_scope('foo'):
    v = tf.get_variable('v', [1])
    print(v.name)
#foo/v:0
 
with tf.variable_scope('foo',reuse=True):
    v1 = tf.get_variable('v', [1])
    print(v = v1)#因为之前已经创建了foo/v 所以v=v1
    #True
    v1 = tf.get_variable('v1', [1]) # 这句会报错，因为并没有叫v1的变量
 
with tf.variable_scope('',reuse=True):
    v2 = tf.get_variable('foo/v', [1]) #另外也可以直接在一个空的空间直接获取其他空间的变量
    print(v2 = v) #因为之前已经创建了foo/v 所以v=v2

TensorFlow的7种不同的初始化函数

使用变量管理对TF模型进行改进，这种方法可以提高复杂程序的可读性：

def inference(input_tensor,avg_class,regularizer):
    if avg_class==None:
        with tf.variable_scope('layer1'):
            weights = tf.get_variable('weights', [INPUT_NODE, LAYER1_NODE], initializer=tf.truncated_normal_initializer(stddev=0.1))
            biases = tf.get_variable("biases", [LAYER1_NODE], initializer=tf.constant_initializer(0.0))
            layer1 = tf.nn.relu(tf.matmul(input_tensor, weights) + biases)
 
 
        with tf.variable_scope('layer2'):
            weights = tf.get_variable('weights', [LAYER1_NODE, OUT_NODE], initializer=tf.truncated_normal_initializer(stddev=0.1))
            biases = tf.get_variable("biases", [OUT_NODE], initializer=tf.constant_initializer(0.0))
            layer2 = tf.matmul(layer1, weights) + biases
        return layer2
    
    else:
        with tf.variable_scope('layer1',reuse=True):
            weights = tf.get_variable('weights', [INPUT_NODE, LAYER1_NODE], initializer=tf.truncated_normal_initializer(stddev=0.1))
            biases = tf.get_variable("biases", [LAYER1_NODE], initializer=tf.constant_initializer(0.0))
            layer1 = tf.nn.relu(tf.matmul(input_tensor,avg_class.average(weights))+avg_class.average(biases))
 
 
        with tf.variable_scope('layer2',reuse=True):
            weights = tf.get_variable('weights', [LAYER1_NODE, OUT_NODE], initializer=tf.truncated_normal_initializer(stddev=0.1))
            biases = tf.get_variable("biases", [OUT_NODE], initializer=tf.constant_initializer(0.0))
            layer2 = tf.matmul(layer1,avg_class.average(weights))+avg_class.average(biases)
        return layer2
 
x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
y = inference(x)
 
#若需要使用训练好的神经网络进行推导时
new_x = ...
new_y = inference(new_x, True)

模型持久化

TF提供了一个简单的API来保存和还原一个神经网络模型。这个API就是tf.train.Saver类。

保存模型

下面即为保存TensorFlow计算图的方法(tf.train.Saver.save())

import tensorflow as tf
 
v1 = tf.Variable(tf.constant(1.0, shape=[1], name='v1'))
v2 = tf.Variable(tf.constant(1.0, shape=[1], name='v2'))
result = v1 + v2
 
#声明tf.train.Saver类用于保存模型
saver = tf.train.Saver()
 
with tf.Session() as sess:
    sess.run(tf.initialize_all_variables())
 
    #将模型保存到model/model.ckpt文件
    saver.save(sess, 'model/model.ckpt')

输出

这样就实现了持久化一个简单的TF模型的功能，通过saver.save函数将TF模型保存到model.ckpt中。虽然只指定了一个文件路劲，但是在该路径下会出现三个文件：

model.ckpt.meta:保存了TF计算图的结构

model.ckpt :保存了TF程序种每个变量的取值

checkpoint:保存了一个目录下所有的模型文件列表

读取模型

在保存了TF模型后，下面是使用saver.restore()加载该模型：

import tensorflow as tf
 
v1 = tf.Variable(tf.constant(1.0, shape=[1], name='v1'))
v2 = tf.Variable(tf.constant(1.0, shape=[1], name='v2'))
result = v1 + v2
 
#声明tf.train.Saver
saver = tf.train.Saver()
 
with tf.Session() as sess:
    #加载已经保存的模型，并通过已经保存的模型中的变量来计算
    saver.restore(sess, ''model/model.ckpt'')
    print(sess.run(result))

注意加载模型的代码没有初始化变量，而是通过已经保存的模型加载进来。如果不想重新定义模型的结构，也可以直接将模型的结构加载出来：

import tensorflow as tf
#加载模型结构
saver = tf.train.import_meta_graph('model/model.ckpt.meta')
 
with tf.Session() as sess:
    saver.restore(sess, 'model/model.ckpt')
    #通过张量的名称来获取张量
    print(sess.run(tf.get_default_graph().get_tensor_by_name('add:0')))
    #[2.]

为了保存和加载部分变量，在声明tf.train.Saver类时可以提供一个列表来指定保存或者加载的变量，如tf.train.Saver([v1]),这时就只有变量v1会被加载进来。除了可以指定被加载的变量，tf.train.Saver类也支持在保存或加载时给变量重命名：

import tensorflow as tf
 
v1 = tf.Variable(tf.constant(2.0, shape=[1], name='other-v1'))
v2 = tf.Variable(tf.constant(3.0, shape=[1], name='other-v2'))
 
#这里如果直接使用tf.train.Saver()来加载模型会报错
 
#使用一个字典来重命名变量就可以加载原来的模型了
#这个字典指定了原名称为v1的变量现在加到v1变量中
saver = tf.train.Saver({'v1': v1, 'v2': v2})

实现线性回归

线性回归原理

根据数据建立回归模型，w1x1+w2x2+...+b=y,通过真实值与预测值之间建立误差，使用梯度下降优化得到损失最小对应的权重和偏置。最终确定模型的权重和偏置参数。最后可以用这些参数进行预测。

1.构建模型

　　y = w1x1+w2x2+...+b

2.构造损失函数

　　均方误差（MSE）

3.优化损失

　　梯度下降

准备真实的数据

100个样本

x特征值形状（100，1）（指的是一百行一列-形状）

y_true目标值 (100,1)

y_true = 0.8x + 0.7

假定x和y之间的关系满足：y = kx +b (k ≈ 0.8，b ≈ 0.7)

流程分析：

（100，1）*（1,1) = （100，1）【其中*指的是矩阵乘法 -matmul】

y_predict = x * weights(1,1) + bias(1,1)

y_predict = tf.matmul(x,weights) + bias

API

运算：

矩阵运算：tf.matmul(x,w)

平方：tf.square(error)

均值 :tf.reduce_mean(error)

梯度下降优化：

tf.train.GradientDescentOptimizer(learning_rate)

[tf.compat.v1.train.GradientDescentOptimizer]

梯度下降优化

learning_rate:学习率，一般为0-1之间比较小的值

method:minimize(lose)

return ：梯度下降op

1.构建模型

　　y_predict = tf.matmul(x,weights) + bias

2.构建损失函数

　　error = tf.reduce_mean(tf.square(y_predict-y_true))

3.优化损失

　　optimizer = tf.compat.v1.train.GradientDescentOptimizer(learning_rate=0.01).minimize(error)

增加其他功能

　　1.变量tensorboard显示

　　2.增加命名空间

　　3.模型保存与加载

　　4.命令行参数设置

1.增加变量显示

目的：在tensorboard当中观察模型的参数，损失值等变量值的变化

1）收集变量

1.tf.summary.scalar(name=",tensor) 收集对于损失函数和准确率等单值变量，name为变量的名字，tensor为值；

2.tf.summary.histogram(name='',tensor)收集高维度的变量参数-直方图(二维)

3.tf.summary.image(name='',tensor)收集输入的图片张量能显示图片-图片(三维)

2）合并变量写入事件文件

1.merged = tf.summary.merge_all()

2.运行合并：summary = sess.run(merged) 每次迭代都需运行

3.添加：FileWriter.add_summary(summary,i) i表示第几次的值

# 1——创建事件文件
            file_writer = tf.compat.v1.summary.FileWriter("./tmp/linear", graph=sess.graph)
# 2——收集变量
        tf.compat.v1.summary.scalar("error", error)
        tf.compat.v1.summary.histogram("weights", weights)
        tf.compat.v1.summary.histogram("bias", bias)
# 3——合并变量
        merged = tf.compat.v1.summary.merge_all()
#4——运行合并变量操作
         summary = sess.run(merged)
#5——将每次迭代后的变量写入事件文件
            file_writer.add_summary(summary, i)

2.增加命名空间

使得代码结构更加清晰，tensorboard图结构清楚

3.模型的保存与加载

tf.train.Saver(var_list=None,max_to_keep=5)

保存和加载模型（格式：checkpoint文件--ckpt）

var_list:指定将要保存和还原的变量。它可以作为一个dict或一个列表传递

max_to_keep:指示要保留的最近检查点文件的最大数量。创建新文件时，会删除较旧的文件，如果无或0，则保留所有检查点文件。默认为5（即保留最新的5个检查点文件）

#保存模型
                if i % 10 == 0:
                    saver.save(sess, "./tmp/model/my_linear.ckpt")

                #加载模型
                if os.path.exists("./tmp/model/checkpoint"):
                    saver.restore(sess, "./tmp/model/my_linear.ckpt")

                print("训练前模型参数为：权重%f, 偏置%f, 损失为%f" % (weights.eval(), bias.eval(), error.eval())

4.学习率的设置，步数设置与梯度爆炸

学习率愈大，训练到较好结果的步数越小；学习率越小，训练到较好结果的步数越大。

但是学习过大会出现梯度爆炸现象。

梯度爆炸：

在极端情况下，权重的值变得非常大，以至于溢出，导致NaN值

如何解决梯度爆炸问题？

1.重新设计网络

2.调整学习率

3.使用梯度截断(在训练过程中检查和限制梯度的大小)

4.使用激活函数

5.变量的trainable设置观察

trainable的参数作用，指定是否训练

代码：

def linear_regression():
    """
    自实现一个线性回归
    """
    with tf.compat.v1.variable_scope("prepare_data"):

        # 1) 准备数据
        X = tf.compat.v1.random_normal(shape=[100, 1], name="feature")
        y_true = tf.matmul(X, [[0.8]]) + 0.7

    with tf.compat.v1.variable_scope("create_model"):
        # 2）构造模型
        #定义模型参数 用变量
        weights = tf.Variable(initial_value=tf.compat.v1.random_normal(shape=[1, 1]), name="Weights")
        bias = tf.Variable(initial_value=tf.compat.v1.random_normal(shape=[1, 1]), name="Bias")
        y_predict = tf.matmul(X, weights) + bias

    with tf.compat.v1.variable_scope("loss_function"):
        # 3）构造损失函数(MSE-均方误差)
        error = tf.reduce_mean(tf.square(y_predict - y_true))

    with tf.compat.v1.variable_scope("optimizer"):
        # 4）优化损失
        optimizer = tf.compat.v1.train.GradientDescentOptimizer(learning_rate=0.01).minimize(error)

        # 2——收集变量
        tf.compat.v1.summary.scalar("error", error)
        tf.compat.v1.summary.histogram("weights", weights)
        tf.compat.v1.summary.histogram("bias", bias)
        # 3——合并变量
        merged = tf.compat.v1.summary.merge_all()

        #创建Saver对象
        saver = tf.compat.v1.train.Saver()

        # 显式地初始化变量
        init = tf.compat.v1.global_variables_initializer()

        # 开启会话
        with tf.compat.v1.Session() as  sess:
            # 初始化变量
            sess.run(init)

            # 1——创建事件文件
            file_writer = tf.compat.v1.summary.FileWriter("./tmp/linear", graph=sess.graph)

            # 查看初始化模型参数之后的值
            print("训练前模型参数为：权重%f, 偏置%f, 损失为%f" % (weights.eval(), bias.eval(), error.eval()))

            # 开始训练
            for i in  range(100):
                sess.run(optimizer)
                print("训练前模型参数为：权重%f, 偏置%f, 损失为%f" % (weights.eval(), bias.eval(), error.eval()))

                #4——运行合并变量操作
                summary = sess.run(merged)
                #5——将每次迭代后的变量写入事件文件
                file_writer.add_summary(summary, i)

                #保存模型
                if i % 10 == 0:
                    saver.save(sess, "./tmp/model/my_linear.ckpt")

                #加载模型
                if os.path.exists("./tmp/model/checkpoint"):
                    saver.restore(sess, "./tmp/model/my_linear.ckpt")

                print("训练前模型参数为：权重%f, 偏置%f, 损失为%f" % (weights.eval(), bias.eval(), error.eval()))

    return None

posted @ 2023-05-19 15:15 sqsq 阅读(22) 评论(0) 编辑收藏举报

刷新页面返回顶部

sqsq

Tensorflow变量管理及模型持久化，实现实现线性回归

公告