摘要: 词性标注 首先介绍Penn Treebank的常用POS标记库 具体使用如下: 阅读全文
posted @ 2018-07-09 10:58 冷血无情康纳酱 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 1.语句分离 主要是用来将句子与句子之间分开 2.分词 3.词干提取 将同一个单词的不同形式统一,使得结果不那么分散 阅读全文
posted @ 2018-07-09 10:41 冷血无情康纳酱 阅读(715) 评论(0) 推荐(0) 编辑
摘要: NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t 阅读全文
posted @ 2018-07-09 09:31 冷血无情康纳酱 阅读(3913) 评论(0) 推荐(0) 编辑