从今天开始,阅读Bing Liu的Sentiment Analysis and Opinion Mining, Morgn & Claypool Publishers, May 2012. 为督促自己,记下学习笔记。
Sentiment Analysis and Opinion Mining(情感分析和观点挖掘)主要研究人们针对相关实体如:商品、服务、组织、个人、事件以及实体的相关属性的观点、情感、态度、评价等(opinion, sentiment, emotion, evaluation, attitude, appraisal)。
观点Opinion贯穿于人类的活动,每当我们要做一个决定时,我们总想知道其他人的观点。实际生活中,商家想知道顾客对其产品和服务的整体印象。个人消费者希望知道已购买客户对产品的看法。Acquiring public and consumer opinions has long been a huge business itself for marketing, public relations, and political campaign companies.
随着社会化媒体的爆发式增长,越来越多的个人或组织利用社会化内容来做决定。个人做决定不再仅依赖于询问自己的家人或朋友,能在网上找到很多关于此产品的评论和讨论。组织做决定也不再仅依赖于社会调查,网上这些公众内容多的是。
我们确信社会化媒体中的观点数据可以重构商业,公众情感和情绪可以影响我们的社会和政治系统。Bing Liu在一个创业公司实现了一个情感分析系统Opinion Parser,可以用在各种领域。
Liu 2007 实现了一个情感分析模型用来预测销售能力
McGlohon 2010 使用评论来进行商品的排序
Twitter情感分析,用来研究公众观点以及预测选举等
Bollen 2011 Twitter moods用来预测股市 Stock Market
Bar-Haim 2011 微博用来预测股市
……
情感分析分为三个级别:
- Document Level:一篇文档的整体情感倾向
- Sentence Level:一个句子的情感倾向
- Entity and Aspect Level:实体或实体的某个方面。一个观念表达(Opinion)会有一个情感倾向(Positive or Negative)和一个目标(Target/Entity or Entity Aspect)
观点可以分为两种:
- Regular Opinion:普通观点,如可口可乐很好喝
- Comparative Opinion:比较观点,如可口可乐比百事可乐好喝
情感词典:
经常用来表达情感的词称之为情感词,如:好、不错、漂亮、差、坏、不好、错等。情感词典就是情感词的集合,对于情感分析非常重要,是必要的,但不是充分的。理由如下:
- 正向或负向的情感词在不同的语义环境下可能有不同的倾向,如:房间里有味道;这个菜很有味道
- 有些句子虽然包含情感词但没有情感倾向,如:Ipad为什么好?
- 讽刺性语句或不含情感词的语句很难处理,如:多好的车啊,才两天就坏了
- 有些语句不含情感词但也能表达情感,如:这个洗衣机用很多水
Beyond NLP
Opinion Spam