基于条件随机场(CRF)的命名实体识别
摘要:
很久前做过一个命名实体识别的模块,现在有时间,记录一下。 一、要识别的对象 人名、地名、机构名 二、主要方法 1、使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法CRF) 2、使用规则对相关数据进行后过滤、 三、具体实现 1、训练数据的生成 主要使用了人民日报免费部分,以及一些及它从网上找到的资源(时间长了,记不住了,好像还自己标注了些) 2、模板的生成 使用的是Unigram,由于考虑到要识别的实体一般情况下没有长距离依赖 以及训练时的效率问题,所以模板没有写得过长。经过几次测试,最终确定的模板如... 阅读全文
posted @ 2014-02-10 21:26 BruceLv 阅读(6624) 评论(3) 推荐(0) 编辑