2014年2月10日

基于条件随机场(CRF)的命名实体识别

摘要: 很久前做过一个命名实体识别的模块,现在有时间,记录一下。 一、要识别的对象 人名、地名、机构名 二、主要方法 1、使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法CRF) 2、使用规则对相关数据进行后过滤、 三、具体实现 1、训练数据的生成 主要使用了人民日报免费部分,以及一些及它从网上找到的资源(时间长了,记不住了,好像还自己标注了些) 2、模板的生成 使用的是Unigram,由于考虑到要识别的实体一般情况下没有长距离依赖 以及训练时的效率问题,所以模板没有写得过长。经过几次测试,最终确定的模板如... 阅读全文

posted @ 2014-02-10 21:26 BruceLv 阅读(6624) 评论(3) 推荐(0) 编辑

评价性短语抽取

摘要: 一、方案目标从已经标注有正、中、负极性的的微博或评论数据中抽取出正负面短语,或是关于指定的某个明星的正负面短语。二、方案实现2.1总体思路2.11具体思路1)抽取短语时是按照词性的规律,总结出一般有效短语的词性模板,然后在已经标注有正、中、负的数据中,根据模板来匹配出评价短语。2)合并语义相近的短语3)按照电影维度种子词把短语划分到各个维度(或映射到指定明星)4)根据短语匹配上的情感词来划分正负极性2.12 流程图2.2具体细节2.2.1模板的选择1)模板选择方法:a)根据一般有效评价短语的词性规律总结了部分模板,共23个模板。a na d na a na aa u nd v nn an d 阅读全文

posted @ 2014-02-10 10:55 BruceLv 阅读(1554) 评论(0) 推荐(0) 编辑

2013年9月15日

hadoop拾遗(三)---- 多种输入

摘要: 虽然一个MapReduce作业的输入可能包含多个输入文件(由文件glob、过滤器和路径组成),但所有文件都由同一个InputFormat和同一个Mapper来解释。然而,数据格式往往会随时间而演变,所以必须写自己的mapper来处理应用中的遗留数据格式。或,有些数据源会提供相同的数据,但是格式不同。对不同的数据集进行连接(jion,也称“联接”)操作时,便会产生这样的问题。例如,有些数据可能是作用制表符分隔的文本文件,另一些文件可能是二进制的顺序文件。即使它们格式相同,它们的表示也可能不同,因此需要分别进行解析。 这些问题可以用 MultipleInputs 类来妥善处理,它允许为每条输... 阅读全文

posted @ 2013-09-15 17:52 BruceLv 阅读(480) 评论(0) 推荐(0) 编辑

2013年8月31日

hadoop拾遗(二)---- 文件模式

摘要: 在单个操作中处理一批文件,这是一个常见的要求。举例来说,处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举第个文件 和目录来指定输入,该操作称为"通配"(globbing)。Hadoop 为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pathPattern) throws IOExceptionpublic FileStatus[] globStatus(Paht pathPattern , PathFileter 阅读全文

posted @ 2013-08-31 12:08 BruceLv 阅读(325) 评论(0) 推荐(0) 编辑

hadoop拾遗(一)---- 避免切分map文件

摘要: 有些程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件。例如,检查一个文件中所有记录是否有序,一个简单的方法是顺序扫描第一条记录并并比较后一条记录是否比前一条要小。如果将它实现为一个map任务,那么只有一个map操作整个文件时,这个算法才可行。 有二种办法可以保证输入文件不被切分 阅读全文

posted @ 2013-08-31 10:42 BruceLv 阅读(1148) 评论(0) 推荐(0) 编辑

2013年3月31日

基于卡方统计的种子词扩展

摘要: 1.首先介绍下卡方公式其中,t代表候选特征,c代表对应分类,A代表t在c中出现的次数。B代表t不在c中出现的次数,C代表c中不出现t的次数。D代表文档集中c和t都不出现的次数,N代表整个文档集的大小。(次数不是指t的次数,均指样本数)2.扩展过程a.首先,既然是扩展,那么就一定有原始的种子,这个可以人工挑出来。种子词不必很多,但要有强烈类别代表性。b.假设有n个类别,先用n个类别的种子词在总的数据中匹配,当数据的一个样本中匹配到了一个种子词,则这个样本被划为这个种子词所属的类别。这样一个样本可能会被划分到多个类别。c.在b步骤已经把数据分为了n+1类,对这些类中的每个特征词进行卡方统计,然后分 阅读全文

posted @ 2013-03-31 12:57 BruceLv 阅读(590) 评论(0) 推荐(0) 编辑

导航