摘要: 做了这么长时间的基于深度学习的NLP,愈发可以感受到bayesian的意思,语言模型里面一切皆是分布,问题答案都是分布,一个问题模拟出来的是一个答案的分布; 我觉得我做的最好的一个聊天模型,就是先将问题表示成一个100维的高斯分布,然后计算各个答案跟这个分布的契合概率,当然这个模型肯定不能放出来,但 阅读全文
posted @ 2017-03-16 20:36 LarryGates 阅读(6457) 评论(0) 推荐(0) 编辑
摘要: 2016/10/6 1: 用自定义的weighted loss来看, 10000个batch仍然没有收敛; 2:仍然使用sigmoid cross entropy loss, 7 epoches 左右仍然收敛,对于7w数据; 3:改动loss, 避免nan loss的出现; 2016/12/6 1: 阅读全文
posted @ 2017-03-16 20:33 LarryGates 阅读(2055) 评论(0) 推荐(0) 编辑
摘要: 灵感 因为最近一直在做rnn based NLP,其中无论是什么cell,lstm, GRU或者cnn都是基于单词的embedding表示;单词的embdding就是把每个单词表示成一个向量, 然后通过bp训练这些向量的值,这种想法很奇妙,于是我尝试性的把这种思想用在logistic regress 阅读全文
posted @ 2017-03-16 17:58 LarryGates 阅读(1489) 评论(1) 推荐(0) 编辑
摘要: 先上模型结构图, LSTM模型的话,rnn的一种,用法很常见基本上就是用来做序列模型的encoding,有很多的关于LSTM的paper自行谷歌; 下面这个模型是我自己试验出来的,效果还不错,可以用来做聊天机器人的深度学习训练,只要有语料库; 用了embedding + bidirectional 阅读全文
posted @ 2017-03-16 15:35 LarryGates 阅读(2267) 评论(1) 推荐(1) 编辑
摘要: 因为要做对话聊天系统,需要大量的语料,所以决定用歌词作为训练数据试试,自己写了个爬虫,爬了大概23w首歌曲的歌词; 用此歌词用作问答对,然后用LSTM-QA模型做问答匹配,经过多次实验,达到一个不错的效果,基本上可以跟你正常聊天; 阅读全文
posted @ 2017-03-16 15:28 LarryGates 阅读(896) 评论(0) 推荐(2) 编辑