会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
喵改
博客园
首页
新随笔
联系
订阅
管理
2020年5月1日
听懂NLPer说的是啥
摘要: 一、标记化(Tokenization) 将文本切分成词 二、去停用词(Stop words) 停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等 三、词干(Stemming) 将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统
阅读全文
posted @ 2020-05-01 23:49 喵改
阅读(271)
评论(0)
推荐(1)
编辑
公告