论文阅读 ------中文情感词典的自动构建及应用
论文:中文情感词典的自动构建及应用 的笔记
一.词语级情感分析
1.情感词典的构建方法: 手工标注,基于词典的方法 和 基于语料库的方法。
手工标注:准确率高,耗费时间和精力。
基于词典 和 基于语料的方法较多。
词语情感分析的难点:1.词语在不同的环境中产生的情感不同
2. 词语的情感类别分类没有统一的规范。
2.句子级情感分析
对象:有上下文环境的句子。
首要任务:区分 主观句 和 客观句
对于句子的分析方法:1.基于情感词的方法 2.基于机器学习的方法
3.篇章级情感分析
篇章的分析 是综合篇章的词语 和 句子 的情感分析结果的基础上,结合上下文以及该领域相关知识得出结论。
篇章级情感分析方法:基于情感词典的方法 和 基于统计的方法。
基于情感词典的方法:通过分析文档中带有情感色彩来判断文档的极性。
基于统计的方法:将情感分析 作为一个分类问题来考虑
如文献 1:基于监督学习的中文情感分类计数比较研究
文献二:sentiment classification using machine learing techniques
结构化数据: 即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据
非结构化数据:包括所有格式的办公文档,图片,音乐,视频
半结构化数据:如HTML,将自描述的、数据结构和内容混在一起,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。
特征提取的方法:基于互信息、信息增益、X2统计、文档频率,词条强度
结果表明 信息增益 和 X2统计是最有效的特征选择算法
常用的语料库:
1.Cornell大学发布的影评数据集
2.UIC的hu和liu 发布的产品领域的评论语料。
3.MPQA 语料,该库取材自535篇经过深度标注的新闻评论语料库。(标注流程在文献34)
4.MIT的 多角度餐馆评论语料
5.中科院发布的大规模的中文酒店评论语料
中文情感词典:
1.知网
2.台湾大学的 NTUSD,有中文简体和繁体两个版本。
3.学生褒贬义词典
4.褒义词词典
5.贬义词词典
情感词典的构建方法: 基于语义词典的方法 和 基于语料的方法
基于语义词典: 给定少量情感词,通过语义词典来判断词语相似度达到扩展词典的目的。 有 WordNet,知网,同义词词林
方法:先收集小规模的带有情感标记的词语集 和 未标注的词表, 通过已有的词典资源,查找词表中词语的同义词和反义词来扩展次词语集。发现的新词语被加入词表中。这个过程会一直迭代到没有新的词语出现。
基于语料的情感词典: 1.通过计算词语间的共现信息计算不同词语之间的相似度
2.利用词语相似度计算词语语义倾向。
利用词语共现计算词语相似度的技术主要有 : 互信息 和 潜在语义分析。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
文本特征的表示方法:
1.向量模型。 文档中 某个词的权重。
2.布尔模型。 文档中是否包含某词,包含为1,不包含为2.
3.tf-idf
常见的文本分类算法:
1.统计学习的方法 2.基于规则的方法
文章提出扩充情感词典的方法:文章提出了基于少数情感词自动构建多分类别的中文情感词典。
步骤一:通过句法分析提取文本中特定依存关系中的词语作为情感候选词
步骤二:计算候选词与少量特征词的相似度
步骤三:运用机器学习的方法对词语进行分类得到词语的情感类别,并对结果进行处理。
posted on 2017-10-24 14:25 JoeLee2017 阅读(2664) 评论(0) 编辑 收藏 举报