摘要: (一)首先检查环境变量配置有没有问题, 1PATH为%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; 2CLASSSPATH为.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar 3JAVA_HOME为C:\Program Fi 阅读全文
posted @ 2018-10-17 14:39 樟樟22 阅读(877) 评论(0) 推荐(0) 编辑
摘要: 第三部分,手机各属性评论的情感分类,分类器是之前训练好的效果最好的朴素贝叶斯分类器。结果展示各属性评论的正负情感分布。 分类结果如下: 阅读全文
posted @ 2018-10-11 17:48 樟樟22 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 第二部分是评论基于属性词典的分类,分类原则是只要评论中属性词典中的分词,那么评论就分到该属性类中去。 阅读全文
posted @ 2018-10-11 17:45 樟樟22 阅读(1135) 评论(2) 推荐(1) 编辑
摘要: 因为写论文需要,准备做手机评论的情感分析,依据现有的工具可以很容易中文评论进行去重复评论,分词,去停用词,向量化,然后用sklearn中的一款分类器来对数据进行情感分类。但是,由于本人打算依据手机不同的属性对评论文本进行情感分析,如“电池”,‘相机’,‘处理器’等属性的评论。很难过的是,这些针对手机 阅读全文
posted @ 2018-10-11 17:39 樟樟22 阅读(1186) 评论(2) 推荐(0) 编辑
摘要: '''词汇检索百度返回值,并且计算PMI值的类''' from bs4 import BeautifulSoup import requests import re import pandas as pd import time import numpy as np class PMI(): def __init__(self): self.url = 'https:/... 阅读全文
posted @ 2018-09-30 18:53 樟樟22 阅读(843) 评论(0) 推荐(0) 编辑
摘要: 关于Python中遇到的中文字符串的读取和输入时总是遇到一堆问题,到现在还不是特别明白,只是有了一个大概率的理解,就是:字符串是用什么编码格式编码的,就用什么编码格式来解码。 encode()对字符串st进行编码,按照制定的编码格式编码。编码后为字节流,bytes。编码是从中间编码格式Unicode 阅读全文
posted @ 2018-08-29 20:51 樟樟22 阅读(2855) 评论(0) 推荐(0) 编辑
摘要: 1.第一次试验:朴素贝叶斯,采用统计词数量方式处理数据conutVectorizer() (1)训练集12695条, 正向:8274 负向:4221 哈工大停词表:df=3,正确率0.899, df=1,正确率0.9015 四川大学停词表:df=1,正确率0.90035 (2)训练集19106条 正 阅读全文
posted @ 2018-08-19 13:08 樟樟22 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 1简述问题 使用countVectorizer()将文本向量化时发现,文本中长度唯一的字符串会被自动过滤掉,这对于我在做的情感分析来讲,一些表较重要的表达情感倾向的词汇被过滤掉,比如文本'没用的东西,可把我可把我坑的不轻,越用越觉得这个手机真的废'。 用结巴分词的精确模式分词,然后我用空格连接这些分 阅读全文
posted @ 2018-08-17 15:17 樟樟22 阅读(7505) 评论(0) 推荐(3) 编辑
摘要: 主要可以参考下面几个链接: 1.sklearn文本特征提取 2.使用scikit-learn tfidf计算词语权重 3.sklearn官方中文文档 4.sklearn.feature_extraction.text.CountVectorizer 补充一下:CounterVectorizer()类 阅读全文
posted @ 2018-08-10 12:00 樟樟22 阅读(7351) 评论(0) 推荐(0) 编辑
摘要: 1.载入文档 2.加载停用词 把停用词典的停用词存到列表里,下面去停用词要用到 3.文本分词 这里有两个切分词的函数,第一个是手动去停用词,第二个是下面在CountVectorizer()添加stop_words参数去停用词。两种方法都可用。 4.对文本进行分词,向量化 (1)对文本进行分词,并且将 阅读全文
posted @ 2018-08-08 19:10 樟樟22 阅读(5503) 评论(0) 推荐(0) 编辑