摘要: 读取IOB格式与CoNLL2000分块语料库 CoNLL2000,是已经加载标注的文本,使用IOB符号分块。 这个语料库提供的类型有NP,VP,PP。 例如: hePRPB-NPaccepted VBDB-VPthe DTB-NPpositionNNI-NP...chunk.conllstr2tree()的函数作用:将字符串建立一个树表示。例如: >>>text = '''... ... 阅读全文
posted @ 2013-05-30 22:09 createMoMo 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 实体识别的基本技术是分块(chunking) 名词短语分块(NP-分块) 这里有一段已经标注的例子: 方括号中是名词标注的例子。 NP-分块信息最有用的来源之一是词性标记。 为了创建一个NP块,我们将首先定义一个块语法,规定了句子应该如何分块。 我们使用正则表达式来定义,规则可以我们自己定:一个NP块由一个可选的限定词(DT)后面跟着任何数目的形容词(JJ),然后是一个名词(N... 阅读全文
posted @ 2013-05-30 17:39 createMoMo 阅读(848) 评论(0) 推荐(0) 编辑
摘要: 信息一个重要的形式是结构化数据。实体和关系的可预测的规范的结构。 我们首先将自然语言句子这样的非结构化数据转换成表7-1的结构化数据。 然后利用强大的查询工具,如SQL,这种从文本获取意义的方法被称作信息提取。 信息提取结构 如图显示了简单的信息提取系统的结构。 1、首先使用句子分割器将该文档的原始文本分割成句 2、使用分词器将每个句子进一步细分为词 3、对每个句子进行词性标... 阅读全文
posted @ 2013-05-27 15:36 createMoMo 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 分类器可以帮助我们理解自然语言中存在的语言模式,允许我们建立明确的模型捕捉这些模式。 这些明确的模型有两个重要的目的: 1、帮助我们了解语言模式 2、可以被用来预测新的语言数据 模型告诉我们什么? 描述性模型捕捉数据中的模式,但是它们并不提供任何有关数据包含这些模式的原因的信息。 解释性模型试图捕捉造成语言模式的属性和关系。 大多数语料库自动构建的模型是描述性模型,它可以告诉哪些特征... 阅读全文
posted @ 2013-05-27 15:18 createMoMo 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 6.4决策树 决策树是一个简单的为输入值选择标签的流程图。这个流程图由检查特征值的决策节点 和分配标签的叶节点组成。为输入值选择标签,我们以流程图的初始决策节点(称为其根节点)开始。 熵和信息增益在决策树桩确定上的应用(可以自行查找相关资料阅读) 可以参考:http://blog.csdn.net/athenaer/article/details/8425479 决策树的一些... 阅读全文
posted @ 2013-05-27 15:05 createMoMo 阅读(1480) 评论(0) 推荐(0) 编辑
摘要: 测试集 测试集要注意可用于测试和可用于训练的数据量之间的权衡。 选择测试集的另一个需要考虑的是测试集中实例与开发集中的实例的相似程度。这两个数据集越相似,我们对将评估结果推广到其他数据集的信心就越小。 准确度 用于评估一个分类的最简单的度量是准确度。 解释一个分类器的准确性得分,考虑测试集中单个类标签的频率是很重要的。 精确度和召回率 •真阳性是相关项目中我们正确识别为相关的。 ... 阅读全文
posted @ 2013-05-27 00:33 createMoMo 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 句子分割 第一步,是获得一些已经被分割的句子的数据,将他转换成一种合适的提取特征的形式。 sents=nltk.corpus.treebank_raw.sents()tokens=[]boundaries=set()offset=0for sent in nltk.corpus.treebank_raw.sents(): tokens.extend(sent) offset+... 阅读全文
posted @ 2013-05-26 22:55 createMoMo 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 模式识别是自然语言处理的一个核心部分。 6.1有监督分类 分类:是为给定的输入选择正确的类标签任务。 有监督分类:如果分类的基础基于包含每个输入正确标签的训练语料。 有监督分类的使用框架图如下: 性别鉴定 让我们以性别鉴定这个简单的例子,再次解释上述图形的流程。 背景:男女的名字是有一定背景的,以此为背景来解释。在这里我们以每个名字的最后一个字母为特征来标志是否为男女。 1、确... 阅读全文
posted @ 2013-05-26 21:56 createMoMo 阅读(1483) 评论(0) 推荐(0) 编辑
摘要: 形态学线索从词的内部结构可能为这个词分类提供有用的线索。例如:-ness与形容词结合可能是一个名词;-ment是与一些动词结合产生一个名词的后缀;英语的动词也是形态复杂的。例如:-ing有可能是现在分词、也有可能是动名词句法线索一个词可能出现的典型上下文例如:假设我们已经确定了名词类,我们可以说,英语的形容词的句法标准是可以立即出现在一个名词前,或者紧跟在be或者very的后面语义线索一个词的意思对其词汇范畴是一个有用的线索。新词比如很多的新词都是名词,这些名词属于开放类;介词被认为是封闭类,因为只有有限的词汇属于这个类别;词性标记集中的形态学例如有的词却有不同的形态,在更细粒度的分词上需要注 阅读全文
posted @ 2013-05-26 16:35 createMoMo 阅读(1228) 评论(0) 推荐(0) 编辑
摘要: Brill标注,一种归纳标注方法。基于转换的学习:猜每个词的标记,然后返回和修复错误。在这种方式中,Brill标注器将会陆续将一个不良标注的文本转换成一个更好的。需要已经标注的训练数据来评估标注器的猜测是否是一个错误。 (1) ThePresidentsaid he willask Congressto increase grantsto states for vocational rehabi... 阅读全文
posted @ 2013-05-26 16:09 createMoMo 阅读(537) 评论(0) 推荐(0) 编辑