2014年2月10日

基于条件随机场(CRF)的命名实体识别

摘要: 很久前做过一个命名实体识别的模块,现在有时间,记录一下。 一、要识别的对象 人名、地名、机构名 二、主要方法 1、使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法CRF) 2、使用规则对相关数据进行后过滤、 三、具体实现 1、训练数据的生成 主要使用了人民日报免费部分,以及一些及它从网上找到的资源(时间长了,记不住了,好像还自己标注了些) 2、模板的生成 使用的是Unigram,由于考虑到要识别的实体一般情况下没有长距离依赖 以及训练时的效率问题,所以模板没有写得过长。经过几次测试,最终确定的模板如... 阅读全文

posted @ 2014-02-10 21:26 BruceLv 阅读(6624) 评论(3) 推荐(0) 编辑

评价性短语抽取

摘要: 一、方案目标从已经标注有正、中、负极性的的微博或评论数据中抽取出正负面短语,或是关于指定的某个明星的正负面短语。二、方案实现2.1总体思路2.11具体思路1)抽取短语时是按照词性的规律,总结出一般有效短语的词性模板,然后在已经标注有正、中、负的数据中,根据模板来匹配出评价短语。2)合并语义相近的短语3)按照电影维度种子词把短语划分到各个维度(或映射到指定明星)4)根据短语匹配上的情感词来划分正负极性2.12 流程图2.2具体细节2.2.1模板的选择1)模板选择方法:a)根据一般有效评价短语的词性规律总结了部分模板,共23个模板。a na d na a na aa u nd v nn an d 阅读全文

posted @ 2014-02-10 10:55 BruceLv 阅读(1554) 评论(0) 推荐(0) 编辑

导航