会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
樟樟22
博客园
首页
新随笔
联系
订阅
管理
2018年8月17日
sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串
摘要: 1简述问题 使用countVectorizer()将文本向量化时发现,文本中长度唯一的字符串会被自动过滤掉,这对于我在做的情感分析来讲,一些表较重要的表达情感倾向的词汇被过滤掉,比如文本'没用的东西,可把我可把我坑的不轻,越用越觉得这个手机真的废'。 用结巴分词的精确模式分词,然后我用空格连接这些分
阅读全文
posted @ 2018-08-17 15:17 樟樟22
阅读(7505)
评论(0)
推荐(3)
编辑
公告