摘要: 前面章节的简单总结 前面的学习中,主要焦点在与 词汇。 如何识别,分析词汇的结构、分配词汇类别、以及获得词汇的含义。 还有如何识别词汇序列或者n-gram的模式。 8.1一些语法困境 语言数据和无限可能性 每天都在增加电子语言,数据量是非常大的; 句子的组合具有无线的可能性; 普遍存在的歧义 让我们仔细看看短语I shot an elephant in mypajamas中的歧义... 阅读全文
posted @ 2013-05-30 23:51 createMoMo 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 7.5命名实体识别(NER) 目标是识别所有文字提及的命名实体。 可以分成两个子任务:确定NE的边界和确定其类型。 NLTK提供了一个已经训练好的可以识别命名实体的分类器,如果我们设置参数binary=True,那么命名实体只被标注为NE,没有类型标签。可以通过代码来看: >>>sent = nltk.corpus.treebank.tagged_sents()[22]>>>prin... 阅读全文
posted @ 2013-05-30 23:26 createMoMo 阅读(6185) 评论(0) 推荐(0) 编辑
摘要: 用级联分块器构建嵌套结构 例如如下,是名词短语、介词短语、动词短语和句子的模式。一个四级块语法器。 grammar= r"""NP:{<DT|JJ|NN.*>+} #Chunksequences of DT,JJ, NNPP:{<IN><NP>} #Chunkprepositions followed byNPVP:{<VB.*><NP|PP|CLAUSE>+$} #Chunkverbs... 阅读全文
posted @ 2013-05-30 22:50 createMoMo 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 读取IOB格式与CoNLL2000分块语料库 CoNLL2000,是已经加载标注的文本,使用IOB符号分块。 这个语料库提供的类型有NP,VP,PP。 例如: hePRPB-NPaccepted VBDB-VPthe DTB-NPpositionNNI-NP...chunk.conllstr2tree()的函数作用:将字符串建立一个树表示。例如: >>>text = '''... ... 阅读全文
posted @ 2013-05-30 22:09 createMoMo 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 实体识别的基本技术是分块(chunking) 名词短语分块(NP-分块) 这里有一段已经标注的例子: 方括号中是名词标注的例子。 NP-分块信息最有用的来源之一是词性标记。 为了创建一个NP块,我们将首先定义一个块语法,规定了句子应该如何分块。 我们使用正则表达式来定义,规则可以我们自己定:一个NP块由一个可选的限定词(DT)后面跟着任何数目的形容词(JJ),然后是一个名词(N... 阅读全文
posted @ 2013-05-30 17:39 createMoMo 阅读(848) 评论(0) 推荐(0) 编辑