词类标签 POS tagging

part-of-speech (POS)

POS其实就是对词进行一些分类，比如名词、动词、形容词、副词等。通过研究POS我们可以学习到更多词于词之间的关系，比如冠词一般在名词前，名词后面可能是动词，更进一步的，POS可以被应用到其他任务中，比如推测作者、信息抽取等等。由于很多语言在不同环境下存在多种意思，词汇间的不同组合也会产生不同的含义，所以POS任务存在很多难点。目前对于词汇的分类有许多标准，如英语中 Brown (87 tags， Penn Treebank (45 tags) ， CLAWS/BNC (61 tags)， “Universal” (12 tags)。

Major Penn Treebank Tags

NN noun; JJ adjective; VB verb; RB adverb；DT determiner; CD cardinal number; IN preposition; PRP personal pronoun; MD modal; CC coordinating conjunction; RP particle; WH wh-pronoun; TO to

如果进一步细分，还可以

NN: NNS (plural, wombats), NNP (proper, Australia), NNPS (proper plural, Australians), VB: VB (infinitive, eat), VBP (1st /2nd person present, eat), VBZ (3rd person singular, eats), VBD (past tense, ate), VBG (gerund, eating), VBN (past participle, eaten), JJ: JJR (comparative, nicer), JJS (superlative, nicest) RB: RBR (comparative, faster), RBS (superlative, fastest), PRP: PRP$ (possessive, my), WH: WH$ (possessive, whose), WDT(wh-determiner, who), WRB (wh-adverb, where)

Tagging方法

1. 基于规则Rule-based

2. 基于统计Statistical taggers

‣ Unigram tagger

最简单的模型，把一个词出现最多的tag给它，一般用作baseline。

‣ Classifier-based taggers

选择一些特征，如环境词，已有标签等，然后使用一些分类器进行分类。

‣ Hidden Markov Model (HMM) taggers

隐马尔科夫模型是一种基于序列的模型，数据有两类，一类是可以观测到的，即观测序列，另一类数据是不能观察到的，即隐藏状态序列。

这个我们下一次讲！

posted @ 2020-06-19 22:52 MrDoghead 阅读(741) 评论(0) 收藏举报

刷新页面返回顶部

MrDoghead

一只小白的自我修炼

词类标签 POS tagging

part-of-speech (POS)

Major Penn Treebank Tags

Tagging方法

公告