04 2017 档案
摘要:为实现文本去重(将前面采集的数据进行两两对比删除重复),写了以下代码。 #-*- coding: utf-8 -*-import pandas as pd inputfile = 'e:/data/H_KJ300F-JAC2101W.txt' #评论文件outputfile = 'e:/data/H
阅读全文
摘要:1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状;(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重、压缩去词等文本评论数据的预处理,利用中文分词包(如结巴分词)实现文本评论分词处理,研究基于word2vec的商品评论
阅读全文