摘要: 文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语料库 词汇列表语料库 (1)词汇列表:nltk.corpus.words.words() 词汇语料库是Unix 中的 阅读全文
posted @ 2018-08-16 14:28 nxf_rabbit75 阅读(774) 评论(0) 推荐(0) 编辑
摘要: 几个基础函数 (1)搜索文本:text.concordance(word) 例如,在text1中搜索词”is”在文本中出现的次数以及上下文的词:text1.concordance("is") (2)搜索上下文相似的词:text.similar(word) 例如,在text1中搜索哪些相似的词出现在词 阅读全文
posted @ 2018-08-16 13:58 nxf_rabbit75 阅读(303) 评论(0) 推荐(0) 编辑