04 2017 档案

摘要:为实现文本去重(将前面采集的数据进行两两对比删除重复),写了以下代码。 #-*- coding: utf-8 -*-import pandas as pd inputfile = 'e:/data/H_KJ300F-JAC2101W.txt' #评论文件outputfile = 'e:/data/H 阅读全文
posted @ 2017-04-22 20:59 <编程小白> 阅读(1399) 评论(0) 推荐(0) 编辑
摘要:1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状;(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重、压缩去词等文本评论数据的预处理,利用中文分词包(如结巴分词)实现文本评论分词处理,研究基于word2vec的商品评论 阅读全文
posted @ 2017-04-21 21:00 <编程小白> 阅读(1812) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示