摘要: 信息一个重要的形式是结构化数据。实体和关系的可预测的规范的结构。 我们首先将自然语言句子这样的非结构化数据转换成表7-1的结构化数据。 然后利用强大的查询工具,如SQL,这种从文本获取意义的方法被称作信息提取。 信息提取结构 如图显示了简单的信息提取系统的结构。 1、首先使用句子分割器将该文档的原始文本分割成句 2、使用分词器将每个句子进一步细分为词 3、对每个句子进行词性标... 阅读全文
posted @ 2013-05-27 15:36 createMoMo 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 分类器可以帮助我们理解自然语言中存在的语言模式,允许我们建立明确的模型捕捉这些模式。 这些明确的模型有两个重要的目的: 1、帮助我们了解语言模式 2、可以被用来预测新的语言数据 模型告诉我们什么? 描述性模型捕捉数据中的模式,但是它们并不提供任何有关数据包含这些模式的原因的信息。 解释性模型试图捕捉造成语言模式的属性和关系。 大多数语料库自动构建的模型是描述性模型,它可以告诉哪些特征... 阅读全文
posted @ 2013-05-27 15:18 createMoMo 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 6.4决策树 决策树是一个简单的为输入值选择标签的流程图。这个流程图由检查特征值的决策节点 和分配标签的叶节点组成。为输入值选择标签,我们以流程图的初始决策节点(称为其根节点)开始。 熵和信息增益在决策树桩确定上的应用(可以自行查找相关资料阅读) 可以参考:http://blog.csdn.net/athenaer/article/details/8425479 决策树的一些... 阅读全文
posted @ 2013-05-27 15:05 createMoMo 阅读(1480) 评论(0) 推荐(0) 编辑
摘要: 测试集 测试集要注意可用于测试和可用于训练的数据量之间的权衡。 选择测试集的另一个需要考虑的是测试集中实例与开发集中的实例的相似程度。这两个数据集越相似,我们对将评估结果推广到其他数据集的信心就越小。 准确度 用于评估一个分类的最简单的度量是准确度。 解释一个分类器的准确性得分,考虑测试集中单个类标签的频率是很重要的。 精确度和召回率 •真阳性是相关项目中我们正确识别为相关的。 ... 阅读全文
posted @ 2013-05-27 00:33 createMoMo 阅读(474) 评论(0) 推荐(0) 编辑