NLP一篇文章的读书笔记

OOV(Out of Vocabulary)问题

 

NLP相对是应用科学,并不是特别的数学。但是我们天天用的算法的基本数学逻辑我认为还是需要搞懂,比如dropout, 比如天天用到的优化(SGD, momentum, adaboost, adagrad),比如各种 batch, layer normalization。这样其实可以省去很多浪费的时间,磨刀不误砍柴工。这些年来,在帮同学调bug的过程中,我至少遇见过3-5个同学 training 的时候开dropout, test 的时候没有对每个cell用 (1-dropout)去 scale (大家不要笑,这是真的)。然后画出dropout曲线就是 dropout 值越大,结果越差。在讨论的时候,同学一脸茫然并且不清楚test时候需要scale。其实本质就是并不了解dropout背后的数学原理。

 

NLP有很多子领域,MT,信息抽取,parsing,tagging,情感分析,MRC等等。

MT:Machine Translation

parsing:语法解析

POS tagging:词性标注(tagging)

MRC:Machine Reading Comprehension

 

参考:https://mp.weixin.qq.com/s/XiS0TJK7fhZTa5lzt3uQaQ

posted @ 2022-02-15 16:56  blcblc  阅读(41)  评论(0编辑  收藏  举报