[语义]情感分析方向近况·0908
什么是情感分析?
这是一个语义领域的方向。
我们业界的术语是 Sentiment Analysis ,能涵盖这个方向的更高一层术语是 Opinion Analysis (意见分析)。在我看来,情感分析应该是局限于分析人们发表的词句(UGC)的情感倾向,通常是好与坏,或正面与负面,高兴与悲伤,保守与激进等倾向性;而意见分析则是从词句要提取出更多的元数据(metadata),而不仅仅是情感倾向,比如要知道是在评论哪个厂商的哪款产品,说的是哪一个产品指标,用词强烈程度等。
关于意见分析的实例,请参考谷文栋2008年写的《Strands Awards 3:SentiMetrix & Pluribo》和我写的《搜索与聚合》,这方面国外已经有了非常成熟的案例。
下面说一下最近国外的进展情况。
一、Evri 推出新Sentiment Web API
Evri 是一个非常优秀的语义搜索引擎或者聚合引擎。
网路相关靠谱报道:
最早的报道是RWW的《Evri Beta Launches: Search Less - Understand More》(cnBeta译文在此),指出 Evri 完全依靠算法在 people, products, concepts, events 之间建立语义连接。
前两年,大家管这个方向叫Connections Engine,说白了就是“Entity Recognition(实体识别)”的一个应用,也算是一种透视新闻资讯的独特维度吧。简单的模仿08年时的 Evri 其实可以通过如下步骤:
1:
收集新浪科技一年来的所有新闻,包括标题、正文、作者、发布时间;
涵盖的领域为:IT、互联网、电信;
2:
经过训练,机器80%+人工审核20%地找出两个大名单:
IT·科技领域的人名、组织名;
常见的人与人、人与组织之间的关联动词;
3:
建立语义实时处理引擎,每抓取一篇科技文章,就交由引擎处理,输出:
是否包含实体词与实体词之间的关系;
如果包含,则输出 实体名+动词+实体名 的关系;
p.s.:
A.确立常见同义的动词对照表;
B.确立常见同义的实体名对照表。
C.建立动词归类;
4:
建立爬虫,定向抓取IT科技靠谱新闻源,喂给语义引擎;
将语义引擎的关系计算结果入库;
将有关系存在的文章入库;
5:
对关系数据进行挖掘。比如:
最近几天最流行的人或组织;
某一个人,最近在做什么(即动词列表),跟谁(即关系人列表);
选定了关系之后,都哪些文章包含了这些关系。
我去年7月份在《语义,艰难旅程上你所需要知道的》一文中推荐研究 Evri ,MMDays在《语意搜寻引擎》中也对Evri做了一点分析。
API 的公布
Evri 在继续大规模扫描Web并挖掘人、地、事之间的关系的同时,也在研究如何理解谈及这些Entities(实体)时所表露出来的feelings(情感),即positive(正面)和negative(负面)。
据RWW8月14日的报道,Evri 推出了新Sentiment Web API,开发者可以在此基础上开发商务智能、市场研究、产品评论等方向的应用。
并非简单地对词句/言论做一个正负面判断,Evri 毕竟是实体识别和句法分析的高手,它来做这件事,肯定要揉合好几种语义技术在里面。
Evri 的API能够深入分析出这段情感表达是围绕着“谁”“什么事儿”“为什么”展开的。
它能帮助开发者知道:
- 围绕着一个实体,情感表达的正负面程度,比如是“喜欢”还是“比较喜欢”还是“非常喜欢”;
- 挖掘出都有“Who”在评价另一个实体,如谁在赞扬NATO(北约)。API给出一个例子:我们可以看到,对北约表示赞扬的有Obama、Bush等,API标识Obama为“Country Leader”,标识Bush为“Politician”,这个能力就属于实体识别范畴,也就是分词之后标识一个词语属于实体并进一步在字典中找到对应的类别,当然一般都只标人名、地名还是组织名,Evri能做到更加细分地标识),API还给出了Obama赞扬的评分是48.0说明他表扬NATO的程度很高;
- 发现“Who”都评价过哪些实体,比如Obama都评论过哪些人。API给出的例子:我们可以看到Obama对加利福尼亚州和希拉里·克林顿都有过负面评价。
- 可以具体给出 Obama 最近的表达情感以及对应的语句,如这个例子;以及最近提及 Obama 的有情感表达的语句,如这个例子。
此处不再罗列API的能力。
总之,Evri 的这套 API 非常强大,几乎能让你从 Entity 和 Sentiment 的所有角度挖掘数据。
二、UVM大学研究者探索如何测量心情或幸福感
7月23日,The University of Vermont(UVM)发表了一篇《If You're Happy, Then We Know It: Research Measures Mood》讲述两位研究者如何通过技术手段测量幸福感。纽约时报进行了报道,艾瑞刊登了对应的中文翻译(怀疑是机器翻译)。
稍早些时候,纽约时报还报道过他们针对歌词、Blog和演讲做过海量监测,来揭示“Nation’s Mood”。只不过这次他们选择了监测 Twitter 。
他们的目标是:
“获取公众对某一个特定主题的脉搏(Pulse),在任意指定的时间点”。
数据来源:
数据展现:
http://www.onehappybird.com/ (尚未开放)
步骤:
建立与心情相关的词表,不一定非要是形容词,可以是任何能够和心情联系起来的、隐匿反映心情的词汇,并标识程度;
扫描 Twitter Public Timeline ,每分钟差不多处理一千条 Tweets ,从中寻找是否包含词表中的词语;
扫描结果入库;
根据指定的时间段,指定的主题,做统计。
研究报告的结论:
拥有越多 followers 的Twitter用户有更快乐的趋势;
未来的期望:
1、这个工具能够像 Google Flu Trends 一样揭示潜在趋势。
2、通过观察一个 Twitter 用户的心情是如何被其他用户影响的,来找到大众行为和情绪传染的一些规律和趋势。
三、tweetfeel一干人等
7月13日,华盛顿邮报报道了tweetfeel,一个基于 Twitter 实时数据的情感测量搜索引擎。
当然,基于Tweets的情感分析方向上的探索者有很多,下面举几个例子。
2008年上线的 http://twitrratr.com/ :
但由于它不知道出于何种考虑,关键词匹配(比如 ill 或 lose )允许在某个英文单词内找 ill ,所以容易出现这种情况:
i'm weary and going to sleep on my mad comfy couch (bdrm is now storage closet lol) 'nite fellow twitter-ites
或
i apologize for the double post. still in learn mode. twitter is still real buggy to me.
,容易出错。
它甚至支持笑脸等常见符号:
twitter does not go on it's side on the ipod :( but anyway, i'm tweetin' in bed :)
针对股票领域Tweets的 StockTwits 和 SkyGrid :
8月4日TechCrunch做过相关报道;
2008年上线的,能搜索相当全Social Media内容的 socialmention.com :
不过这个站可以针对很多内容做情感分析,如Blogs、Bookmarks、Comments等等,天涯海阁做过报道。
最后,应该是 Twitter ,它即将(说了很久了还不见动静)给自己的搜索加入情感分析功能。
毕竟,twitter搜索本来就是收购来的。而那个团队summize最开始主打的功能就是情感分析。
所以说,twitter search 可能会放出经过语义分析和情感分析后的数据API。也许,把 Evri 的 Sentiment API 功能嫁接到 Twitter Search API 上即可。
好了,就是这些了。这就是2009年7月和8月国外情感分析方向的一些进展。