会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
jeson
博客园
首页
新随笔
联系
订阅
管理
2020年3月8日
文本向量化的原理
摘要: 一、文本分词 将需要进行分析的文本进行分词(英文直接按照空格分隔词汇,中文则需通过分词工具分隔之后,把词之间加上空格) 二、去停用词 在文本中可以发现类似”the”、”a”等词的词频很高,但是这些词并不能表达文本的主题,我们称之为停用词。 对文本预处理的过程中,我们希望能够尽可能提取到更多关键词去表
阅读全文
posted @ 2020-03-08 16:48 hehejeson
阅读(1926)
评论(0)
推荐(1)
编辑
公告