摘要:
WordNet是面向语义的英语词典,类似于传统词典,但具有更丰富的结构。NLTK中包括英语WordNet,有很多词和同义词的集合。意义与同义词具有相同含义的词是同义词。#在wordnet中怎样探索这些同义词from nltk.corpus import wordnet as wnWn.synsets(‘motorcar’)[Synset(‘car.n.01’)]通过对这段程度的分析可以知道:Motorcar只有一个可能的含义;这个含义被定义为car.n.01,car的第一个名词的意义。Car.n.01被称为synset或者同义词集#意思相同的词或者词条的集合wn.synset(‘car.n.0 阅读全文
摘要:
词典或者词典资源是一个词/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。一个词项包括词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不同的词拼写相同,被称为同音异义词。词汇列表语料库NLTK包括一些仅仅包含词汇列表的语料库。#过滤文本,这个函数计算文本的词汇表,然后删除所有在现有的词汇列表中出现的元素,只留下罕见或者拼写错误的词。def unusual_words(text):text_vocab=set(w.lower() for w in text if w.isalpha())english_vocab=set(w.lower() for w in nltk. 阅读全文