摘要: 一、标记化(Tokenization) 将文本切分成词 二、去停用词(Stop words) 停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等 三、词干(Stemming) 将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统 阅读全文
posted @ 2020-05-01 23:49 喵改 阅读(271) 评论(0) 推荐(1) 编辑