摘要:
读取IOB格式与CoNLL2000分块语料库 CoNLL2000,是已经加载标注的文本,使用IOB符号分块。 这个语料库提供的类型有NP,VP,PP。 例如: hePRPB-NPaccepted VBDB-VPthe DTB-NPpositionNNI-NP...chunk.conllstr2tree()的函数作用:将字符串建立一个树表示。例如: >>>text = '''... ... 阅读全文
摘要:
实体识别的基本技术是分块(chunking) 名词短语分块(NP-分块) 这里有一段已经标注的例子: 方括号中是名词标注的例子。 NP-分块信息最有用的来源之一是词性标记。 为了创建一个NP块,我们将首先定义一个块语法,规定了句子应该如何分块。 我们使用正则表达式来定义,规则可以我们自己定:一个NP块由一个可选的限定词(DT)后面跟着任何数目的形容词(JJ),然后是一个名词(N... 阅读全文