随笔分类 - 深度学习&&实验室项目
计算机视觉
摘要:直接把自己的工作文档导入的,由于是在外企工作,所以都是英文写的 chinese and english tokens result input: "我爱中国",tokens:["我","爱","中","国"] input: "I love china habih", tokens:["I","lov
阅读全文
摘要:直接把自己的工作文档导入的,由于是在外企工作,所以都是英文写的 Steps: modify code in run_classifier.py add a new processor add the processor in main function Train and predict train
阅读全文
摘要:Transformer: https://jalammar.github.io/illustrated-transformer/ BERT: https://arxiv.org/pdf/1810.04805.pdf 进化史:https://zhuanlan.zhihu.com/p/49271699
阅读全文
摘要:When training on GPU, the error "Model diverged with loss = NaN" is often caused by a sotmax that's getting a symbol larger than vocab_size
阅读全文
摘要:原因是使用Adam优化函数时,Adam函数会创建一个Adam变量,目的是保存你使用tensorflow创建的graph中的每个可训练参数的动量, words/_word_embeddings:0 bi-lstm/bidirectional_rnn/fw/lstm_cell/kernel:0 bi-l
阅读全文
摘要:vars = tf.global_variables() net_var = [var for var in vars if 'bi-lstm_secondLayer' not in var.name and 'word_embedding1s' not in var.name and 'proj_
阅读全文
摘要:link: https://www.tensorflow.org/guide/saved_model 中文博客:https://blog.csdn.net/Searching_Bird/article/details/78274207 https://blog.csdn.net/mieleizhi0
阅读全文
摘要:>>> a=np.array([[-2.6, -1.7, -3.2, 0.1], [-2.6, -1.7, 3.2, 0.1]]) >>> z=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=a,labels=[2,2]) >>> sess
阅读全文
摘要:调用static_rnn实际上是生成了rnn按时间序列展开之后的图。打开tensorboard你会看到sequence_length个rnn_cell stack在一起,只不过这些cell是share weight的。因此,sequence_length就和图的拓扑结构绑定在了一起,因此也就限制了每
阅读全文
摘要:AlexNet (2012) The network had a very similar architecture as LeNet by Yann LeCun et al but was deeper, with more filters per layer, and with stacked
阅读全文
摘要:GPU和CPU实现的不一样,这里贴的是CPU中的drop out 直接看caffe里面的源码吧:(产生满足伯努利分布的随机数mask,train的时候,data除以p,...... scale_ = 1. / (1. - threshold_);
阅读全文
摘要:1、计算的均值和方差是channel的 2、test/predict 或者use_global_stats的时候,直接使用moving average use_global_stats 表示是否使用全部数据的统计值(该数据实在train 阶段通过moving average 方法计算得到)训练阶段设
阅读全文
摘要:来源知乎: dropout 的过程好像很奇怪,为什么说它可以解决过拟合呢?(正则化) 取平均的作用: 先回到正常的模型(没有dropout),我们用相同的训练数据去训练5个不同的神经网络,一般会得到5个不同的结果,此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。(例如
阅读全文
摘要:maxout的拟合能力是非常强的,它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合(学过高等数学应该能明白),而maxout又是取k个隐隐含层节点的最大值,这些”隐隐含层"节点也是线性的,所以在不同的取值范围下,最大值也可以看做是分段线性的(分段的个数与k值有
阅读全文
摘要:SGD: 1、随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行,因此可以带来优化波动(扰动) 2、由于波动,因此会使得迭代次数(学习次数)增多,即收敛速度变慢 Mini-batch: 1、Mini-batch梯度下降降低了收敛波动性 2、相对于全量梯度下降,其提高了每次学习的速度 写在
阅读全文
摘要:深度学习在美团点评推荐平台排序中的运用 原创 2017-07-28 潘晖 美团点评技术团队 美团点评作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团点评的用户和商户数在快速增长。在这样的背景下,通
阅读全文
摘要:但是一般写程序的时候,我们想直接在test时用 , 这种表达式。(where ) 因此我们就在训练的时候就直接训练 。 所以训练时,第一个公式修正为 。 即把dropout的输入乘以p 再进行训练,这样得到的训练得到的weight 参数就是 ,测试的时候除了不使用dropout外,不需要再做任何re
阅读全文