情感分析思想(基于各种词典)
之前在实习时,teamleader想利用情感分析实现“公司绩效考核”问题,即从Boss对员工的评语中判断该员工该月的绩效值,属情感分析领域。
当时使用最简单的基于情感词典的方法解决,借鉴了这篇文章,在此基础上对其进行修改,先讲思路描述如下。
1 词典准备
- 情感词典(BosonNLP情感词典)
- 停用词典
- 否定词典
- 程度副词词典
注:情感词典内包含词语以及对应的情感值;停用词典只包含停用词语;否定词典只包含否定词语;程度副词词典内包含词语及对应的程度值。
2 实施步骤
整体步骤如下:
- 分词(jieba),去停用词;
- 构建词语序列;
- 对词语序列结果分类,找出情感词、否定词、程度副词;
- 计算得分。
其中计算得分的具体步骤如下:
- 找出所有情感词的下标,构建新词组;
- 新词组构建方法:该情感词与前一情感词之间的否定词及程度副词 + 该情感词(第一个情感词前至句首);
- 计算:程度副词的程度值 × 情感词的情感值,每有一个否定词,使该式 × -1;
- 句子累加。
缺点:
- 没有考虑词义,特别对于“标题党”来讲,结果差距巨大。但这种情况都需要使用深度学习的方法才能有效解决,普通机器学习方法也是很难的。
- 对于正负向文本的判断,该算法忽略了很多其他的否定词、程度副词和情感词搭配的情况;用于判断情感强弱也过于简单。
作者:祁俊辉
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。