电商评论数据聚类实验报告

电商评论数据聚类实验报告——冯煜博

1. 实验目的

掌握无监督学习问题的一般解决思路和具体解决办法；
熟悉 python sklearn 库的使用方法

2. 整体思路

首先，通过 python 爬虫下载电商网站上关于某产品的用户评论数据；
其次，清洗数据（移除表情符号等）、分词、去停用词；
再次，计算每条评论的 TF-IDF 词频，使用 KMeans 算法进行聚类；
最后，通过词云工具，生成每个分类的词云图。

3. 数据介绍

电商评论数据选自京东 kindle 产品的全部用户评论，排序顺序为“推荐”。

4. 代码与实验步骤

4.1 爬虫代码

每页输出10条评论，遍历100页

# !/usr/bin/python
# -*- coding: utf-8 -*-

import urllib.request
import time

if __name__ == "__main__":
	# JD的数据是以GBK编码的
    f = open("jd-comments-json.txt", mode="w", encoding="gbk")
    for i in range(100):
		# 每页数据量为 50 条
        url = "https://sclub.jd.com/comment/productPageComments.action?productId=2002883&score=0&sortType=5&page=" + str(i) + "&pageSize=10"
        ret = urllib.request.urlopen(url).read().decode("gbk")
        f.write("%s\n" % ret)
        print("%d %s" % (i, ret))
        time.sleep(i % 2) # 爬虫的节操：不能拖垮人家的数据库

4.2 数据清洗

主要是去除表情符号，因为表情符号存在的情况不多，所以这部分工作是手动进行的。
评论数据是以 JSON 格式从京东上面下载的，所以需要对JSON进行解析。

# !/usr/bin/python
# -*- coding: utf-8 -*-

import json

if __name__ == "__main__":
    f_comment = open("comments.txt", encoding="gbk", mode="w")
    with open("jd-comments-json.txt", encoding="gbk") as f:
        for line in f:
            s = json.loads(line.strip())
            comments = s["comments"]
            for comment in comments:
                content = comment['content'].replace("\n", "")
                f_comment.write("%s\n" % content)

4.3 分词

分词工具使用的是哈工大开发的语言技术平台云，通过 REST 调用的方式对每一条评论都分好了词。

# !/usr/bin/python
# -*- coding: utf-8 -*-

import urllib.request
import urllib.parse
import time

def word_seg(sentence):
    url = "http://api.ltp-cloud.com/analysis/"
    args = {
        "api_key" : "your-api-key",
        'text' : sentence,
        'format' : 'plain',
        'pattern' : 'ws'
    }
    ret = urllib.request.urlopen(url, urllib.parse.urlencode(args).encode(encoding="utf-8"))
    return ret.read().decode(encoding="utf-8")

if __name__ == "__main__":
    f_in = open("comments-utf8.txt", encoding="utf8")
    f_out = open("comments-ws.txt", encoding="utf-8", mode="w")
    for line in f_in:
        ret = word_seg(line.strip()).replace("\n", "  ")
        print(ret)
        f_out.write("%s\n" % ret)
        time.sleep(0.5)

4.4 去停用词

去掉分词结果中：的、了，以及各种标点符号。

# !/usr/bin/python
# -*- coding: utf-8 -*-

stop_word = ("的", "了","，", "、", "。", "；", "！", "*", "：", "～")

f_out = open("comments-processed.txt", encoding="utf-8", mode="w")
with open("comments-ws.txt", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        sen = ""
        for c in line:
            if c not in stop_word:
                sen = sen + c
        for word in sen.split(" "):
            if len(word) != 0:
                f_out.write("%s  " % word)
        f_out.write("\n")

4.5 计算TF-IDF词频与聚类算法应用

本部分代码参考了CSDN博客\(^{[2]}\)

# !/usr/bin/python
# -*- coding: utf-8 -*-

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans

if __name__ == "__main__":
    corpus = list()
    with open("comments-processed.txt", encoding="utf-8") as f:
        for line in f:
            corpus.append(line.strip())

    vectorizer = CountVectorizer()
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    word = vectorizer.get_feature_names()
    weight = tfidf.toarray()

    clf = KMeans(n_clusters=5)  # 假设数据内在地分为 5 组
    resul = clf.fit(weight)

    with open("comments-processed.txt", encoding="utf-8") as f:
        for i, line in enumerate(f):
            group = clf.labels_[i]
            f = open("group-" + str(group) + ".txt", encoding="utf-8", mode="a")
            f.write("%s" % line)
            f.close()

该代码将生成 5 份对评论聚类后的文件，分别是 group-0.txt，group-1.txt，......，group-4.txt。
其中，每个文件的内容都将是改组别下的评论数据。

4.6 生成词云图

采用了一款工具\(^{[3]}\)，而没有使用代码实现。

5 实验结果

5.1 词云图

5.1.1 第 0 组词云图

5.1.2 第 1 组词云图

5.1.3 第 2 组词云图

5.1.4 第 3 组词云图

5.1.5 第 4 组词云图

5.2 聚类结果分析

5.2.1 第 1 组

共 89 条记录，举例如下：
确实不错比手机看书好多了不刺眼可以总邮箱把 TXT 传到这上面自动就转换了挺方便
很不错东东主要是比实体书带着方便很多
很好用跟纸张看书效果很像携带也很方便

5.2.2 第 2 组

共 167 条记录，举例如下：
确实不错感觉比平板省眼睛而且这个续航比较牛确实不错
送货速度快价廉物美有了这个看书眼睛就不会很累真不错

5.2.3 第 3 组

共 117 条记录，举例如下：
宝贝很好看书很舒服不似手机一样会眼睛疲劳干涩这是我第一部阅读器很喜欢也经常在京东买东西一直很满意
喜欢小巧轻便可以尽情看看看了再也不担心眼睛痛问题了看一下午眼睛疲惫感还好

5.2.4 第 4 组

共 77 条记录，举例如下：
东西很好也没有出现亮点很完美物流也很快
东西还不错就是就是反应有点慢

5.2.5 第 5 组

共 548 条记录，举例如下：
kindl 读书装 B 一条龙服务
一直没买 kendle 这次买回来

6.不足与反思

写爬虫时我没有考虑到“中评”、“差评”的情况，所以该实验的数据集是有偏见的；
由于时间仓促，没有使用对评论数据分类效果最好的 \(惩罚GMM聚类算法^{[1]}\)；
即便是对评论进行了聚类，但是聚类的结果从实际的角度来考虑，并没有发现其用处；
考察聚类结果发现，各个类别下面的数据量分布不均匀，第4组数据量达 500+ 条，但第 0、1、2 组仅90+ 条。

7. 参考资料

[1] 电子商务顾客评论的热点话题分析，蔡越 (厦门大学经济学院统计系)，郭鹏（厦门数析信息科技有限公司），方匡南（厦门大学经济学院统计系，厦门大学数据挖掘研究中心），http://cos.name/2016/05/e-commerce-customer-reviews-hot-topic-analysis/?utm_source=tuicool&utm_medium=referral

[2] 基于k-means和tfidf的文本聚类代码简单实现，CSDN博客，http://blog.csdn.net/eastmount/article/details/50473675

[3] BlueMC新一代营销工作平台，http://www.bluemc.cn/

posted @ 2017-06-15 13:26 健康平安快乐阅读(3924) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部