深度学习&&实验室项目 - 随笔分类 - simple_wxl

摘要：阅读全文

posted @ 2019-04-25 16:59 simple_wxl 阅读(1996) 评论(0) 推荐(1) 编辑

摘要：阅读全文

posted @ 2019-03-05 17:12 simple_wxl 阅读(888) 评论(0) 推荐(0) 编辑

摘要：直接把自己的工作文档导入的，由于是在外企工作，所以都是英文写的 chinese and english tokens result input: "我爱中国"，tokens:["我","爱","中","国"] input: "I love china habih", tokens:["I","lov 阅读全文

posted @ 2019-02-25 20:26 simple_wxl 阅读(6272) 评论(0) 推荐(0) 编辑

中文多分类 BERT

摘要：直接把自己的工作文档导入的，由于是在外企工作，所以都是英文写的 Steps: modify code in run_classifier.py add a new processor add the processor in main function Train and predict train 阅读全文

posted @ 2019-02-25 17:32 simple_wxl 阅读(4256) 评论(6) 推荐(0) 编辑

Transformer+BERT+GPT+GPT2

摘要：Transformer: https://jalammar.github.io/illustrated-transformer/ BERT: https://arxiv.org/pdf/1810.04805.pdf 进化史：https://zhuanlan.zhihu.com/p/49271699 阅读全文

posted @ 2019-02-20 20:54 simple_wxl 阅读(1293) 评论(0) 推荐(0) 编辑

GPU下train 模型出现nan

摘要：When training on GPU, the error "Model diverged with loss = NaN" is often caused by a sotmax that's getting a symbol larger than vocab_size 阅读全文

posted @ 2019-01-31 22:01 simple_wxl 阅读(874) 评论(0) 推荐(0) 编辑

tensorflow中的kernel/Adam 变量的来源

摘要：原因是使用Adam优化函数时，Adam函数会创建一个Adam变量，目的是保存你使用tensorflow创建的graph中的每个可训练参数的动量， words/_word_embeddings:0 bi-lstm/bidirectional_rnn/fw/lstm_cell/kernel:0 bi-l 阅读全文

posted @ 2019-01-28 17:00 simple_wxl 阅读(1429) 评论(0) 推荐(0) 编辑

tensorflow 使用预训练好的模型的一部分参数

摘要：vars = tf.global_variables() net_var = [var for var in vars if 'bi-lstm_secondLayer' not in var.name and 'word_embedding1s' not in var.name and 'proj_ 阅读全文

posted @ 2019-01-28 16:56 simple_wxl 阅读(2279) 评论(0) 推荐(1) 编辑

tensorflow variable的保存和修改（加载一部分variable到新的model中）

摘要：link: https://www.tensorflow.org/guide/saved_model 中文博客：https://blog.csdn.net/Searching_Bird/article/details/78274207 https://blog.csdn.net/mieleizhi0 阅读全文

posted @ 2019-01-24 22:05 simple_wxl 阅读(1377) 评论(0) 推荐(0) 编辑

sparse_softmax_cross_entropy_with_logits

摘要：>>> a=np.array([[-2.6, -1.7, -3.2, 0.1], [-2.6, -1.7, 3.2, 0.1]]) >>> z=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=a,labels=[2,2]) >>> sess 阅读全文

posted @ 2019-01-22 20:27 simple_wxl 阅读(177) 评论(0) 推荐(0) 编辑

动态RNN和静态RNN区别

摘要：调用static_rnn实际上是生成了rnn按时间序列展开之后的图。打开tensorboard你会看到sequence_length个rnn_cell stack在一起，只不过这些cell是share weight的。因此，sequence_length就和图的拓扑结构绑定在了一起，因此也就限制了每阅读全文

posted @ 2019-01-09 16:14 simple_wxl 阅读(2204) 评论(0) 推荐(0) 编辑

CNN Architectures(AlexNet,VGG,GoogleNet,ResNet,DenseNet)

摘要：AlexNet (2012) The network had a very similar architecture as LeNet by Yann LeCun et al but was deeper, with more filters per layer, and with stacked 阅读全文

posted @ 2018-06-28 10:17 simple_wxl 阅读(2005) 评论(0) 推荐(0) 编辑

Dropout caffe源码

摘要：GPU和CPU实现的不一样，这里贴的是CPU中的drop out 直接看caffe里面的源码吧：（产生满足伯努利分布的随机数mask，train的时候，data除以p,...... scale_ = 1. / (1. - threshold_); 阅读全文

posted @ 2017-08-24 23:55 simple_wxl 阅读(531) 评论(0) 推荐(0) 编辑

BatchNorm caffe源码

摘要：1、计算的均值和方差是channel的 2、test/predict 或者use_global_stats的时候，直接使用moving average use_global_stats 表示是否使用全部数据的统计值(该数据实在train 阶段通过moving average 方法计算得到)训练阶段设阅读全文

posted @ 2017-08-24 21:36 simple_wxl 阅读(628) 评论(0) 推荐(0) 编辑

drop out为什么能够防止过拟合

摘要：来源知乎： dropout 的过程好像很奇怪，为什么说它可以解决过拟合呢？（正则化）取平均的作用：先回到正常的模型（没有dropout），我们用相同的训练数据去训练5个不同的神经网络，一般会得到5个不同的结果，此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。（例如阅读全文

posted @ 2017-08-08 22:59 simple_wxl 阅读(6770) 评论(0) 推荐(0) 编辑

maxout激活函数

摘要：maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合（学过高等数学应该能明白），而maxout又是取k个隐隐含层节点的最大值，这些”隐隐含层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有阅读全文

posted @ 2017-08-02 17:30 simple_wxl 阅读(835) 评论(0) 推荐(0) 编辑

深度学习最全优化方法---来源于知乎

摘要：SGD: 1、随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行，因此可以带来优化波动(扰动) 2、由于波动，因此会使得迭代次数（学习次数）增多，即收敛速度变慢 Mini-batch: 1、Mini-batch梯度下降降低了收敛波动性 2、相对于全量梯度下降，其提高了每次学习的速度写在阅读全文

posted @ 2017-07-30 10:55 simple_wxl 阅读(6434) 评论(0) 推荐(0) 编辑

摘要：深度学习在美团点评推荐平台排序中的运用原创 2017-07-28 潘晖美团点评技术团队美团点评作为国内最大的生活服务平台，业务种类涉及食、住、行、玩、乐等领域，致力于让大家吃得更好，活得更好，有数亿用户以及丰富的用户行为。随着业务的飞速发展，美团点评的用户和商户数在快速增长。在这样的背景下，通阅读全文

posted @ 2017-07-30 10:43 simple_wxl 阅读(20951) 评论(1) 推荐(0) 编辑

cvpr densnet论文

摘要：阅读全文

posted @ 2017-07-27 09:11 simple_wxl 阅读(463) 评论(0) 推荐(0) 编辑

深度学习-面试

摘要：但是一般写程序的时候，我们想直接在test时用，这种表达式。（where ）因此我们就在训练的时候就直接训练。所以训练时，第一个公式修正为。即把dropout的输入乘以p 再进行训练，这样得到的训练得到的weight 参数就是，测试的时候除了不使用dropout外，不需要再做任何re 阅读全文

posted @ 2017-07-16 22:29 simple_wxl 阅读(350) 评论(0) 推荐(0) 编辑

simple_wxl

随笔分类 - 深度学习&&实验室项目

公告