摘要:
文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语料库 词汇列表语料库 (1)词汇列表:nltk.corpus.words.words() 词汇语料库是Unix 中的 阅读全文
摘要:
几个基础函数 (1)搜索文本:text.concordance(word) 例如,在text1中搜索词”is”在文本中出现的次数以及上下文的词:text1.concordance("is") (2)搜索上下文相似的词:text.similar(word) 例如,在text1中搜索哪些相似的词出现在词 阅读全文