微博情感分析(三)
接着上一篇的撒~
上一篇提到了微博的几个特点,下面继续说一下微博的第三个特点:
(3)表达情感强烈而理性评价淡化
由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。
匿名评论是网络最大的市场之一。为什么社交网络这么流行?我认为很大一部分程度是因为我们可以没有太大顾忌的在网络上随便说点什么。现在的社会生活压力太大,很多人无法也不愿将自己的心里话随便说出来。所以匿名网络的出现直接满足了我们的需求。但是因为可以随意的说点什么,所以网络上就多了好多不该说而且又极端的内容。当然这是站在社会一员的角度来说的。反过来看,如果我们作为分析者来看的话,这种极端而又激烈的表达方式恰恰反映出了用户的真实情感。所谓情感的程度,就是情感的极端性,越富有情感色彩的话语,越会极端。比如:我爱你。很深刻的一句话,为什么?因为这句话完全表达了恋人之间的情感——我喜欢你到了极致。这就是一种极端。所以,虽然微博存在了字数限制,但是在网友强大的造词能力下,这个问题就不是问题了。
(4)口语色彩浓重,情感因子颗粒度加大
微博虽然用的是书面形式,但交际的实时性、互动性,使得它具有浓重的口语色彩,人们往往会使用一些口语化词语把自己内心的真实感受直接表达出来,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。
这是在构建情感词典时所有考虑的问题了。情感词典只是针对于词汇,但对于口语等日常用语来讲,词并不完全是词,字并不完全是字,甚至句子都不完全是句子。比如:你几点吃饭?——再说吧。什么叫再说吧?什么再说吧?再怎么说吧?为什么要说吧?所以根本没法进行分词后进行判定。这个时候,建立一个包含最新词汇的情感短语字典就显得很重要了。
(5)隐晦表达观点
在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。如:
<1>#食用油涨价#我可以说脏话吗?
这是一个疑问句,字面上看没有表达任何观点,然而在“食用油涨价”这一语境下,可以理解为说话者表达的是一种想用说脏话来发泄的冲动,因而也就间接地表达了对话题不满的情绪和贬斥的态度。
<2>#三亚春节宰客#当地的政府部门这么做的用意是什么? 掩耳盗铃? 越抹越黑? 还是让游客永远不去三亚? 应该去测测智商了!“
应该去测测智商”表达了说话者对“当地政府部门”的不满。
对这种问题分析,标签的作用就很大了。首先要分析出标签内容是否是消极的,然后去找评论中的消极词汇,如果评论根据算法得出是消极的,那么才是消极的。比如第一个,实用油涨价,对所有评论分析后得出这是个对大众消极的事件。而后评论者说他想说脏话,对谁说呢?对标签内容说。所以”对食用油涨价说脏话“这句话是一个消极的了。
(6)评价对象省略
由于话题型微博的话题标签与文本存在着密切的关联,网友在发布微博时,往往可以直接对整个话题或话题的某一部分进行评价和表达态度,因而标签或者标签的一部分甚至标签外事物也就成为了评价对象。所以,话题型微博的评价对象常在文本中省略,观点句更加短小精悍,甚至短小到一个短语、一个词,也可以被人理解,不会造成传播上的歧义。如:
<1>#菲军舰恶意撞击#抗议!
<2>#菲军舰恶意撞击#真可恶
上面这些观点句都缺省了评价对象,在表达评价时只用了极简短的话语,但读者仍然能够理解它们评价的对象:<1>的评价对象是整个标签“菲军舰恶意撞击”这件事,<2>是标签中的“菲军舰”。为什么我们理解这句话的意思?是因为标签。标签的作用在这里无所替代,第一句中,标签内容是宾语,第二句是主语。也就是:抗议菲军舰恶意撞击、菲军舰恶意撞击真可恶。
(7)语言不够规范
微博中含有大量非规范性的语言文字,也是话题型微博语言的一个特点。这种非规范性可能有几个方面的原因:一方面,是非人为的原因造成的输入失误或常识上的汉字书写错误;另一方面,微博表达自由,加之敏感话题在法律上的限制,会人为地加入一些噪声、非规范词、非规范符号和非规范语言格式。例如:
<1>#疯狂的大葱#找点空闲,找点时间! 带着钱包常去 http://***********淘宝小店去看看!
<2>#假和尚搂女子#真TM不要 Face。
例<1>加入网站链接等噪声;例<2>中英文混用,TM 是“他妈”的拼音缩写,不要 Face 是“不要脸”;
这也是我们大多数网友的习惯了,我认为这是一件好事,说话真的未必非要局限于一种语言。每一种语言都有自己的特点,很有可能一种语言能表达出其他语言所表达不出的含义,甚至两种语言结合也可能会表达出完全不同的含义。比如第二句虽然与“真他妈不要脸”的语义完全相同,但表达的程度是不一样的。第二句中加入了英文,反映了作者并不想出口脏话,但是“假和尚搂女子”这件事情引起了评论者的强烈不满,既能表达情感,又不想说脏话,这就是两种语言相结合的结果。