摘要: NLTK 分句、分词、词干提取、词型还原 阅读全文
posted @ 2019-01-19 19:04 后来的后来123 阅读(5392) 评论(0) 推荐(1) 编辑
摘要: 一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 阅读全文
posted @ 2019-01-19 19:01 后来的后来123 阅读(333) 评论(0) 推荐(0) 编辑