论文阅读 ------中文情感词典的自动构建及应用

论文:中文情感词典的自动构建及应用 的笔记

一.词语级情感分析

1.情感词典的构建方法: 手工标注,基于词典的方法 和 基于语料库的方法。

手工标注:准确率高,耗费时间和精力。

基于词典 和 基于语料的方法较多。

 

词语情感分析的难点:1.词语在不同的环境中产生的情感不同

          2. 词语的情感类别分类没有统一的规范。

2.句子级情感分析

对象:有上下文环境的句子。

首要任务:区分 主观句  和 客观句 

对于句子的分析方法:1.基于情感词的方法  2.基于机器学习的方法

3.篇章级情感分析

篇章的分析 是综合篇章的词语 和 句子 的情感分析结果的基础上,结合上下文以及该领域相关知识得出结论。

篇章级情感分析方法:基于情感词典的方法 和 基于统计的方法。

基于情感词典的方法:通过分析文档中带有情感色彩来判断文档的极性。

基于统计的方法:将情感分析 作为一个分类问题来考虑

如文献 1:基于监督学习的中文情感分类计数比较研究

文献二:sentiment classification using machine learing techniques  

 

结构化数据: 即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据

非结构化数据:包括所有格式的办公文档,图片,音乐,视频

半结构化数据:如HTML,将自描述的、数据结构和内容混在一起,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。

特征提取的方法:基于互信息、信息增益、X2统计、文档频率,词条强度

结果表明 信息增益 和 X2统计是最有效的特征选择算法

 

常用的语料库:

1.Cornell大学发布的影评数据集

2.UIC的hu和liu 发布的产品领域的评论语料。

3.MPQA 语料,该库取材自535篇经过深度标注的新闻评论语料库。(标注流程在文献34)

4.MIT的  多角度餐馆评论语料

5.中科院发布的大规模的中文酒店评论语料

 

中文情感词典:

1.知网

2.台湾大学的  NTUSD,有中文简体和繁体两个版本。

3.学生褒贬义词典

4.褒义词词典

5.贬义词词典

 

情感词典的构建方法: 基于语义词典的方法  和  基于语料的方法

基于语义词典:  给定少量情感词,通过语义词典来判断词语相似度达到扩展词典的目的。 有  WordNet,知网,同义词词林

方法:先收集小规模的带有情感标记的词语集 和 未标注的词表, 通过已有的词典资源,查找词表中词语的同义词和反义词来扩展次词语集。发现的新词语被加入词表中。这个过程会一直迭代到没有新的词语出现。

 

基于语料的情感词典:  1.通过计算词语间的共现信息计算不同词语之间的相似度

           2.利用词语相似度计算词语语义倾向。

利用词语共现计算词语相似度的技术主要有 : 互信息 和 潜在语义分析。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

文本特征的表示方法:

1.向量模型。 文档中 某个词的权重。

2.布尔模型。 文档中是否包含某词,包含为1,不包含为2.

3.tf-idf 

常见的文本分类算法:

1.统计学习的方法   2.基于规则的方法

文章提出扩充情感词典的方法:文章提出了基于少数情感词自动构建多分类别的中文情感词典。

步骤一:通过句法分析提取文本中特定依存关系中的词语作为情感候选词

步骤二:计算候选词与少量特征词的相似度

步骤三:运用机器学习的方法对词语进行分类得到词语的情感类别,并对结果进行处理。

 

posted on 2017-10-24 14:25  JoeLee2017  阅读(2664)  评论(0编辑  收藏  举报