一号店评论文本聚类研究1
目的:自动化给评论分类
步骤:1.一号店美护一个月的评论数据,首先按照评分把评论分为好评(4,5分)和差评(1,2分),总计 好评有96万条,差评有1万5千条。
2.对每一条评论进行分词,采用ANSJ(加入自定义词典),去掉停用词(网上下载stopword,并且加入自定义停用词,主要是根据聚类效果查看不必要的用词,加入停用词词典中。)
3.用Java写成mallet格式,格式为:编号+类别+分词,都以空格分开。
4.用mallet进行聚类,工具是powershell,差评和好评分别进行聚类(好评聚类96万条,四个线程,7个类别,迭代1000次,耗时一个小时左右)(差评1万五千条,四个线程,6各类别,迭代1000次,耗时1分钟左右)
5.好评的聚类效果:
0 0.12113 快 很好 发货 物流 包装 很快 服务 卖家 赞 速度 快递 收到 态度 送货 给力 谢谢 宝贝 不错 超
1 0.14381 味道 舒服 喜欢 感觉 效果 香 不错 很好 头发 香味 干净 清爽 很喜欢 皮肤 滋润 淡淡的 很好闻 泡沫 油腻
2 0.12613 商品 非常满意 满意 分 满意度 嘀 规定 事实上 房东 东莞 地图 丁丁 教授 太香 地地道道 应有尽有 东东如 安好 爰
3 0.08655 效果 感觉 皮肤 面膜 明显 用完 产品 保湿 白 之后 很多 坚持 现在 舒服 很好 脸上 评价 希望 不错
4 0.33039 不错 很好 效果 还不错 还没用 感觉 挺好的 还可以 应该 正品 不错的 行 很好用 赠品 很喜欢 喜欢 购买 好评 一直用
5 0.25647 便宜 价格 实惠 超市 好用 一直用 牌子 不错 方便 一号店 划算 很好 活动 喜欢 很好用 号店 品牌 购买 老
6 0.09074 东 包装 有点 毛 牙刷 软 牙膏 点 方便 知道 货 少 刷 漏 量 适合 里 感觉 喜欢
0:物流问题 1:味道不错 2:不确定 3:使用效果 4:正品 5:价格 6:包装
我试了6,7,8类别,暂时还没有发现比较适合的聚类个数,需要业务人员给出明确的聚类类别,还有待改进。
差评聚类的效果:
0 0.13196 送 说 赠品 买 没 发 片 烂 没有 元 图片 评价 装 明明 少 购买 收到 使用 一个
1 0.35459 买 东西 号店 一号店 超市 贵 假货 以后 会 说 卖 产品 货 真 价格 失望 正品 钱 便宜
2 0.49354 商品 感觉 好 满意 太 效果 没有 差 没 好用 不好 一点 不错 质量 货 知道 非常 掉 毛
3 0.27334 包装 没有 漏 东西 打开 里面 瓶子 太 盒子 收到 知道 没 开 里 盖子 瓶 坏 破 差
4 0.38247 味道 买 洗 感觉 效果 过敏 没有 好 脸上 干 水 完 没 正品 会 头发 皮肤 油 知道
5 0.26228 说 没 货 快递 服 客 号 发货 没有 收到 送 发 东西 差 服务 态度 慢 现在 单
0:没有赠品 1:价格贵 2:质量不好 3:包装不好 4:使用效果不好 5:快递不好或者物流不好
差评的结果同样需要明确具体的类别。
改进:通过完善更好的分词词典,使得分词更准确,这样会带来更好的效果。