摘要:
词性标注 首先介绍Penn Treebank的常用POS标记库 具体使用如下: 阅读全文
摘要:
1.语句分离 主要是用来将句子与句子之间分开 2.分词 3.词干提取 将同一个单词的不同形式统一,使得结果不那么分散 阅读全文
摘要:
NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t 阅读全文