情感分析---词典创建

词典包括情感词典、程度词典、否定词典和连词词典,其中情感词典最为重要,程度词典和否定词典用于识别修饰情感词语的成分,连词词典用于识别句际关系.

1.情感词典

以情感词汇本体为主要资源,结合HowNet情感分析用中文词集、中文褒贬义词典 和学生褒贬义词,经过整合、去重、转换和补充得到含有28567个词语的情感词典,每个词语标注词性、极性(1为褒义词、-1为贬义词、0为中性词)、强度(分为5档,5表示强度最大,1表示强度最小)等信息.结合词语的极性以及强度可以度量词语的情感值.

2.程度词典

根据HowNet中文程度级别词语整理程度词典,共计140个程度词语,如“很”、“非常”,用符号deg 表示,为每个程度词语设定权重Weight(deg).根据HowNet将表达“极其、最”意义的权重设为5、
“很”意义的权重设为4、“较”意义的权重设为3、“稍微、一点”意义的权重设为2.

3.否定词典

HowNet中的否定词语含有“negation”义项,根据该义项找到否定词语,再添加一些常用的否定词语,如网络用语“木有”,共计65个.否定词语用符号neg 表示,若将否定词语看作特殊的程度词语,有Degree(neg)=-1.

4.连词词典

句子之间的主从关系包括总结(或结果)、让步、转折、假设、目的和条件等,会体现句子情感表达的侧重.从句子情感而言,总结或转折子句的情感最为重要,让步子句的情感相对不重要,而假设、目的和条件子句一般认为不体现情感.从语料中筛选出60个连词并标注主从关系,如“但是”表转折.

    摘自:否定句的情感不确定性度量及分类
posted @ 2017-04-07 20:35  笨笨鸟  阅读(3371)  评论(0编辑  收藏  举报