随笔档案「2013年5月30日」：【语言处理与Python】8.1一些语法困境 ... - createMoMo

2013年5月30日

摘要：前面章节的简单总结前面的学习中，主要焦点在与词汇。如何识别，分析词汇的结构、分配词汇类别、以及获得词汇的含义。还有如何识别词汇序列或者n-gram的模式。 8.1一些语法困境语言数据和无限可能性每天都在增加电子语言，数据量是非常大的；句子的组合具有无线的可能性；普遍存在的歧义让我们仔细看看短语I shot an elephant in mypajamas中的歧义... 阅读全文

posted @ 2013-05-30 23:51 createMoMo 阅读(375) 评论(0) 推荐(0)

【语言处理与Python】7.5命名实体识别/7.6关系抽取

摘要： 7.5命名实体识别（NER）目标是识别所有文字提及的命名实体。可以分成两个子任务：确定NE的边界和确定其类型。 NLTK提供了一个已经训练好的可以识别命名实体的分类器，如果我们设置参数binary=True，那么命名实体只被标注为NE，没有类型标签。可以通过代码来看： >>>sent = nltk.corpus.treebank.tagged_sents()[22]>>>prin... 阅读全文

posted @ 2013-05-30 23:26 createMoMo 阅读(6240) 评论(0) 推荐(0)

【语言处理与Python】7.4语言结构中的递归

摘要：用级联分块器构建嵌套结构例如如下，是名词短语、介词短语、动词短语和句子的模式。一个四级块语法器。 grammar= r"""NP:{<DT|JJ|NN.*>+} #Chunksequences of DT,JJ, NNPP:{<IN><NP>} #Chunkprepositions followed byNPVP:{<VB.*><NP|PP|CLAUSE>+$} #Chunkverbs... 阅读全文

posted @ 2013-05-30 22:50 createMoMo 阅读(579) 评论(0) 推荐(0)

【语言处理与Python】7.3开发和评估分块器

摘要：读取IOB格式与CoNLL2000分块语料库 CoNLL2000，是已经加载标注的文本，使用IOB符号分块。这个语料库提供的类型有NP,VP,PP。例如： hePRPB-NPaccepted VBDB-VPthe DTB-NPpositionNNI-NP...chunk.conllstr2tree()的函数作用：将字符串建立一个树表示。例如： >>>text = '''... ... 阅读全文

posted @ 2013-05-30 22:09 createMoMo 阅读(1212) 评论(0) 推荐(0)

【语言处理与Python】7.2分块

摘要：实体识别的基本技术是分块（chunking）名词短语分块（NP-分块）这里有一段已经标注的例子：方括号中是名词标注的例子。 NP-分块信息最有用的来源之一是词性标记。为了创建一个NP块，我们将首先定义一个块语法，规定了句子应该如何分块。我们使用正则表达式来定义，规则可以我们自己定：一个NP块由一个可选的限定词（DT）后面跟着任何数目的形容词（JJ），然后是一个名词（N... 阅读全文

posted @ 2013-05-30 17:39 createMoMo 阅读(889) 评论(0) 推荐(0)

createMoMo

公告