论文阅读 ------中文情感词典的自动构建及应用

论文：中文情感词典的自动构建及应用的笔记

一.词语级情感分析

1.情感词典的构建方法：手工标注，基于词典的方法和基于语料库的方法。

手工标注：准确率高，耗费时间和精力。

基于词典和基于语料的方法较多。

词语情感分析的难点：1.词语在不同的环境中产生的情感不同

　　　　　　　　　　2. 词语的情感类别分类没有统一的规范。

2.句子级情感分析

对象：有上下文环境的句子。

首要任务：区分主观句和客观句

对于句子的分析方法：1.基于情感词的方法 2.基于机器学习的方法

3.篇章级情感分析

篇章的分析是综合篇章的词语和句子的情感分析结果的基础上，结合上下文以及该领域相关知识得出结论。

篇章级情感分析方法：基于情感词典的方法和基于统计的方法。

基于情感词典的方法：通过分析文档中带有情感色彩来判断文档的极性。

基于统计的方法：将情感分析作为一个分类问题来考虑

如文献 1：基于监督学习的中文情感分类计数比较研究

文献二：sentiment classification using machine learing techniques

结构化数据：即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据

非结构化数据：包括所有格式的办公文档，图片，音乐，视频

半结构化数据：如HTML，将自描述的、数据结构和内容混在一起，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据。

特征提取的方法：基于互信息、信息增益、X2统计、文档频率，词条强度

结果表明信息增益和 X2统计是最有效的特征选择算法

常用的语料库：

1.Cornell大学发布的影评数据集

2.UIC的hu和liu 发布的产品领域的评论语料。

3.MPQA 语料，该库取材自535篇经过深度标注的新闻评论语料库。（标注流程在文献34）

4.MIT的多角度餐馆评论语料

5.中科院发布的大规模的中文酒店评论语料

中文情感词典：

1.知网

2.台湾大学的 NTUSD，有中文简体和繁体两个版本。

3.学生褒贬义词典

4.褒义词词典

5.贬义词词典

情感词典的构建方法：基于语义词典的方法和基于语料的方法

基于语义词典：给定少量情感词，通过语义词典来判断词语相似度达到扩展词典的目的。有 WordNet，知网，同义词词林

方法：先收集小规模的带有情感标记的词语集和未标注的词表，通过已有的词典资源，查找词表中词语的同义词和反义词来扩展次词语集。发现的新词语被加入词表中。这个过程会一直迭代到没有新的词语出现。

基于语料的情感词典： 1.通过计算词语间的共现信息计算不同词语之间的相似度

　　　　　　　　　　　2.利用词语相似度计算词语语义倾向。

利用词语共现计算词语相似度的技术主要有：互信息和潜在语义分析。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

文本特征的表示方法：

1.向量模型。文档中某个词的权重。

2.布尔模型。文档中是否包含某词，包含为1，不包含为2.

3.tf-idf

常见的文本分类算法：

1.统计学习的方法 2.基于规则的方法

文章提出扩充情感词典的方法：文章提出了基于少数情感词自动构建多分类别的中文情感词典。

步骤一：通过句法分析提取文本中特定依存关系中的词语作为情感候选词

步骤二：计算候选词与少量特征词的相似度

步骤三：运用机器学习的方法对词语进行分类得到词语的情感类别，并对结果进行处理。

posted on 2017-10-24 14:25 JoeLee2017 阅读(2790) 评论(0) 收藏举报

刷新页面返回顶部

JoeLee2017

论文阅读 ------中文情感词典的自动构建及应用

导航

公告