自编码器论文的提出是为了神经网络权重更好的初始化,他将多层网络一层一层的通过自编码器确定初始权重,最终再对模型进行权重训练;
这种初始化权重的方式目前已经不是主流,但他的思路可以借鉴到很多场景;
模型简介
自编码器,AutoEncode,它分为两部分,前一部分是编码器,后一部分是解码器,
它的原理非常简单,就是把输入 通过编码器编码,然后再通过解码器解码,使得解码后的数据与输入尽可能一致;
它的输入输出都是数据本身,如图
由于自编码器算法没有用到 数据的 label,所以可以视为一种无监督学习
自编码器种类
自编码器有很多种,区别在于
1. 网络结构不同:全连接、卷积,深层、浅层
2. 给自编码器网络加上一些约束,使得输入与输出不完全一致,只近似的复制输入,这样我们可以实现优先复制数据的部分特征
栈式自编码器
很简单,就是多隐层的网络,如图
注意:网络不要太深,过深的网络也是能够解码成原图的,但是把图像压缩得很小,比如一个数,这对于其他应用,比如特征提取,没什么意义了,压缩太狠了
不完备自编码器
输入维数大于编码后的维数,也就是降维,类似于 PCA,但效果比 PCA 好
去燥自编码器
输入有噪声的图像,训练的 ‘label’ 为无噪声的图像,实现图像去燥
使用场景
通常情况下,自编码器网络训练好之后,我们只取编码器部分的权重;
特征提取
由于编码后的特征能够通过某种方式解码成原始数据,说明该特征能够很好的代表原始数据,
降维
一般情况下,输入的维度会大于编码后的维度,这达到降维的作用
图像降噪
输入有噪声的图像,模型的 ‘label’ 是无噪声的图像
图像压缩
图像太大,输入维度过高,模型收敛慢,且从过多信息中学习特征是比较困难的,压缩之后轻松愉快
算法特点
1. 有损压缩:压缩后的信息少于原始信息,且不可恢复
2. 数据相关:自编码器模型只适用于和训练数据相关的数据,比如人脸的自编码器不能用于汽车
示例
import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # xavier initializaton参数初始化方法 def xavier_init(fan_in, fan_out, constant=1): low = -constant * np.sqrt(6.0/(fan_in+fan_out)) high = constant * np.sqrt(6.0/(fan_in+fan_out)) return tf.random_uniform((fan_in, fan_out), minval=low, maxval=high, dtype=tf.float32) class AdditiveGaussianNoiseAutoEncoder(object): def __init__(self, n_input, n_hidden ,transfer_function=tf.nn.softplus, optimizer=tf.train.AdamOptimizer(), scale=0.1): # 1,定义一些必需的参数 self.n_input = n_input # 输入 self.n_hidden = n_hidden # self.transfer = transfer_function self.scale = tf.placeholder(tf.float32) self.training_scale = scale networks_weights = self._initialize_weigths() self.weights = networks_weights # 2,定义网络结构 三层网络 self.x = tf.placeholder(tf.float32, [None, self.n_input]) # 图片拉成一维 # 隐层输出:activeFunc((x+noise)*w1+b1) self.hidden = self.transfer(tf.add(tf.matmul(self.x + scale * tf.random_normal((n_input,)) , self.weights['w1']), self.weights['b1'])) # output:hidden*w2+b2 self.reconstruction = tf.matmul(self.hidden,self.weights['w2'])+self.weights['b2'] # 3,定义损失函数和优化器 ### self.reconstruction-self.x 解码后的图像-原图 self.cost = 0.5 * tf.reduce_sum(tf.pow((self.reconstruction - self.x), 2.0)) / 128 self.optimizer = optimizer.minimize(self.cost) # 4,全局参数初始化 init = tf.global_variables_initializer() self.sess = tf.Session() self.sess.run(init) def _initialize_weigths(self): all_weigths = dict() all_weigths['w1'] = tf.Variable(xavier_init(self.n_input,self.n_hidden),dtype=tf.float32) all_weigths['b1'] = tf.Variable(tf.zeros([self.n_hidden],dtype=tf.float32)) all_weigths['w2'] = tf.Variable(tf.zeros([self.n_hidden,self.n_input]),dtype=tf.float32) all_weigths['b2'] = tf.Variable(tf.zeros([self.n_input],dtype=tf.float32)) return all_weigths def partial_fit(self, X): # 当前 cost cost,opt = self.sess.run([self.cost, self.optimizer], feed_dict={self.x:X, self.scale:self.training_scale}) ### 两个 placeholder,x scale return cost def calc_total_cost(self,X): # 计算cost,用来测试模型效果 return self.sess.run(self.cost, feed_dict={self.x:X,self.scale:self.training_scale}) def transform(self,X): # 编码 return self.sess.run(self.hidden, feed_dict={self.x:X,self.scale:self.training_scale}) def generate(self,hidden=None): # 解码 if hidden==None: hidden = np.random.normal(size = self.weigths['b1']) return self.sess.run(self.reconstruction,feed_dict={self.hiddne:hidden}) # 重构,包括编码和解码两个过程 def reconstruct(self, X): return self.sess.run(self.reconstruction, feed_dict={self.x:X, self.scale:self.training_scale}) def getWeights(self): return self.sess.run(self.weights['w1']) def getBiases(self): return self.sess.run(self.weights['b1']) def pltTwo(self): import matplotlib.pyplot as plt r = np.random.randint(0, mnist.test.num_examples - 1) fig = plt.figure() ax = fig.add_subplot(131) bx = fig.add_subplot(132) cx = fig.add_subplot(133) ax.imshow(mnist.test.images[r:r + 1].reshape(28, 28), cmap='Greys', interpolation='nearest') ### 随机选一张图,reshape bx.imshow(self.transform(mnist.test.images[r:r + 1]).reshape(20, 20), cmap='Greys', interpolation='nearest') ### 编码 cx.imshow(self.reconstruct(mnist.test.images[r:r + 1]).reshape(28, 28), cmap='Greys', interpolation='nearest') ### 编码解码形成新图 plt.show() # 数据标准化 def standard_scale(X_train,X_test): preprocessor = prep.StandardScaler().fit(X_train) X_train = preprocessor.transform(X_train) X_test = preprocessor.transform(X_test) return X_train,X_test def get_random_block_form_data(data, batch_size): # 获取随机block数据 start_index = np.random.randint(0, len(data)-batch_size) return data[start_index:(start_index + batch_size)] if __name__=='__main__': # 1,获取数据并标准化 # mnist = input_data.read_data_sets("./data", one_hot=True) mnist = input_data.read_data_sets("./data", one_hot=True) ### 获取数据 X_train,X_test = standard_scale(mnist.train.images,mnist.test.images) ### 数据标准化 # 2,定义一些训练参数 n_samples = int(mnist.train.num_examples) training_epochs = 100 batch_size = 128 display_step = 2 # 3,构建去噪自编码器模型,包括网络结构的定义,loss和优化器的定义等 autoencoder = AdditiveGaussianNoiseAutoEncoder(n_input=784, n_hidden=400, ### 这里设 400 是为了 编码图片为 400 维,可以 reshape 成 20x20 transfer_function=tf.nn.softplus, optimizer=tf.train.AdamOptimizer(learning_rate=0.001), scale=0.01) # 4,迭代训练 for epoch in range(training_epochs): avg_cost = 0.0 total_batch = int(n_samples/batch_size) ### 所有样本迭代完毕需要的 次数 for i in range(total_batch): batch_xs = get_random_block_form_data(X_train,batch_size) ### 随机获取一个 batch 的数据,可能有大量重复 cost = autoencoder.partial_fit(batch_xs) ### 当前 cost avg_cost += cost/n_samples if epoch % display_step == 0: print('Epoch: %04d,cost=%.9f' % (epoch+1,avg_cost)) # 5,测试 print('Total cost: '+str(autoencoder.calc_total_cost(X_test))) # 6,原始图和重构图的对比 autoencoder.pltTwo()
输出:原始图;编码图;解码图
只是个 demo,自己可以调试下
参考资料:
https://www.cnblogs.com/LXP-Never/p/10921257.html
https://www.cnblogs.com/virter/p/9547520.html
https://www.cnblogs.com/royhoo/p/Autoencoders.html
https://zhuanlan.zhihu.com/p/80377698