会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
小千北同学超爱写代码
有棱有角,还会发光!
博客园
首页
新随笔
联系
管理
订阅
2020年3月9日
NLP(一):jieba分词
摘要: 本文主要讲统计分词。 中文预处理的一个重要的环节就是对语料进行分词,将一句话或者一个段落拆分成许多独立个体的词,然后方便向量化,接着进行TF-IDF的特征处理。 在英语中,单词本身就是“词”,而在汉语中,“词”以“字”为基本单位,文章的语义表达仍然以“词”来划分,所以在处理中文文本时,需要进行分词处
阅读全文
posted @ 2020-03-09 19:00 小千北同学超爱写代码
阅读(847)
评论(0)
推荐(0)
编辑
公告