NLP一篇文章的读书笔记
OOV(Out of Vocabulary)问题
NLP相对是应用科学,并不是特别的数学。但是我们天天用的算法的基本数学逻辑我认为还是需要搞懂,比如dropout, 比如天天用到的优化(SGD, momentum, adaboost, adagrad),比如各种 batch, layer normalization。这样其实可以省去很多浪费的时间,磨刀不误砍柴工。这些年来,在帮同学调bug的过程中,我至少遇见过3-5个同学 training 的时候开dropout, test 的时候没有对每个cell用 (1-dropout)去 scale (大家不要笑,这是真的)。然后画出dropout曲线就是 dropout 值越大,结果越差。在讨论的时候,同学一脸茫然并且不清楚test时候需要scale。其实本质就是并不了解dropout背后的数学原理。
NLP有很多子领域,MT,信息抽取,parsing,tagging,情感分析,MRC等等。
MT:Machine Translation
parsing:语法解析
POS tagging:词性标注(tagging)
MRC:Machine Reading Comprehension
参考:https://mp.weixin.qq.com/s/XiS0TJK7fhZTa5lzt3uQaQ