MSRA在微博情感分析上的两篇文章--11ACL篇
先总体说一下,MSRA在微博情感分析方面有两篇高质量的文章,
- Target-dependent Twitter Sentiment Classification(11 ACL)---2个月以前在Reading Group上讲过
- Topic Sentiment Analysis in Twitter: A Graph-based Hashtag Sentiment Classification Approach(11 CIKM)刚下载,待读
这里就说一下第一篇论文,当时没有及时总结,现在就写一下吧,这里参考了当时zhenghua师兄对我讲解论文的总结,有些偷懒~~
论文的contributions:
(1) target-dependent syntactic features.
作者提炼的很好。
师兄给的建议是:应用句法结果时,尤其是依存句法结果,再尤其是汉语,一定要用最简单、最有效的句法信息。一个特征中涉及的依存弧越多,含有的噪声也越多。
(2) graph-based optimization (postprocessing)
老方法。我们实验室似乎也用过此类方法。
每一个节点表示一个tweets,每个节点保存一个polarity分布:p(positive|t), p(negative|t), p(neural|t) ,t表示tweets
通过belief (expectation) propagation,相邻节点互相影响polarity分布
通过迭代的方法更新每个节点的polarity分布,直到graph收敛(稳定)。
(3) target extension (相当于query expansion)
一个trick,不过可以解决一些稀疏问题。
也说明作者的工作很细。
后续和zhenghua师兄讨论,为什么要分为两步:(1) subjectivity classification (2) polarity classification
是因为这样有层级来做效果好?还是为了语料平衡?这个需要我来调研,很惭愧现在回想起当初的问题还是很迷惑~~~