随笔分类 - NLP
摘要:ref: http://blog.sina.com.cn/s/blog_8e6f1b330102vu4i.html
阅读全文
摘要:refer: https://www.cnblogs.com/by-dream/p/9403984.html Out1 = SELECT QueryId, DocId, Rating, ROW_NUMBER() OVER (PARTITION BY QueryId ORDER BY Score DE
阅读全文
摘要:A single search -- whether it comes from one of the MSearch items, or a regular single search -- will grab a thread from the search threadpool. The se
阅读全文
摘要:别人推荐的网址: http://ruder.io/deep-learning-nlp-best-practices/index.html#wordembeddings
阅读全文
摘要:Note that if we wrap a base cell with dropout and then use it to build a MultiRNNCell, both input dropout and output dropout will be applied between l
阅读全文
摘要:CRF的进化 https://flystarhe.github.io/2016/07/13/hmm-memm-crf/参考: http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/ 说明:因为MEMM只在局
阅读全文
摘要:TM有三个 model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2)) 第一个dropout是x和hidden之间的dropout,第二个是hidden-hidden之间的dropout 在tensorflow里面有 第三个是层-层之间的drop
阅读全文
摘要:HMM的应用 HMM是生成模型 词性标注:给定一个词的序列(也就是句子),找出最可能的词性序列(标签是词性)。如ansj分词和ICTCLAS分词等。 分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中
阅读全文
摘要:架构:skip-gram(慢、对罕见字有利)vs CBOW(快) · 训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利) 负例采样准确率提高,速度会慢,不使用negative sampling的word2vec本身非常快,但是准确性并不高 · 欠采样频繁词:可以提高结
阅读全文
摘要:最原始的是NNLM,然后对其改进,有了后面的层次softmax和skip gram 层次softmax:去掉了隐藏层,后面加了huffuman树,concat的映射层也变成了sum skip gram是和层次softmax反过来的,是用中间某个词,预测左右上下文 word2vec是一个无监督算法,f
阅读全文
摘要:本宝宝又转了一篇博文,但是真的很好懂啊: 写在前面:知乎上关于lstm能够解决梯度消失的问题的原因: 上面说到,LSTM 是为了解决 RNN 的 Gradient Vanish 的问题所提出的。关于 RNN 为什么会出现 Gradient Vanish,上面已经介绍的比较清楚了,本质原因就是因为矩阵
阅读全文
摘要:正则匹配: .除换行符所有的 ?表示0次或者1次 *表示0次或者n次 a(bc)+表示bc至少出现1次 ^x.*g$表示字符串以x开头,g结束 |或者 http://regexr.com/ 依存句法分析得到的 dobj : direct object直接宾语 用来表示潜在的Intent,指代消解里面
阅读全文