2018 年 8月 17 日随笔档案 - 樟樟22

2018年8月17日

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串

摘要： 1简述问题使用countVectorizer()将文本向量化时发现，文本中长度唯一的字符串会被自动过滤掉，这对于我在做的情感分析来讲，一些表较重要的表达情感倾向的词汇被过滤掉，比如文本'没用的东西，可把我可把我坑的不轻，越用越觉得这个手机真的废'。用结巴分词的精确模式分词，然后我用空格连接这些分阅读全文

posted @ 2018-08-17 15:17 樟樟22 阅读(7505) 评论(0) 推荐(3) 编辑

樟樟22

公告