摘要: 句子分割 第一步,是获得一些已经被分割的句子的数据,将他转换成一种合适的提取特征的形式。 sents=nltk.corpus.treebank_raw.sents()tokens=[]boundaries=set()offset=0for sent in nltk.corpus.treebank_raw.sents(): tokens.extend(sent) offset+... 阅读全文
posted @ 2013-05-26 22:55 createMoMo 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 模式识别是自然语言处理的一个核心部分。 6.1有监督分类 分类:是为给定的输入选择正确的类标签任务。 有监督分类:如果分类的基础基于包含每个输入正确标签的训练语料。 有监督分类的使用框架图如下: 性别鉴定 让我们以性别鉴定这个简单的例子,再次解释上述图形的流程。 背景:男女的名字是有一定背景的,以此为背景来解释。在这里我们以每个名字的最后一个字母为特征来标志是否为男女。 1、确... 阅读全文
posted @ 2013-05-26 21:56 createMoMo 阅读(1483) 评论(0) 推荐(0) 编辑
摘要: 形态学线索从词的内部结构可能为这个词分类提供有用的线索。例如:-ness与形容词结合可能是一个名词;-ment是与一些动词结合产生一个名词的后缀;英语的动词也是形态复杂的。例如:-ing有可能是现在分词、也有可能是动名词句法线索一个词可能出现的典型上下文例如:假设我们已经确定了名词类,我们可以说,英语的形容词的句法标准是可以立即出现在一个名词前,或者紧跟在be或者very的后面语义线索一个词的意思对其词汇范畴是一个有用的线索。新词比如很多的新词都是名词,这些名词属于开放类;介词被认为是封闭类,因为只有有限的词汇属于这个类别;词性标记集中的形态学例如有的词却有不同的形态,在更细粒度的分词上需要注 阅读全文
posted @ 2013-05-26 16:35 createMoMo 阅读(1228) 评论(0) 推荐(0) 编辑
摘要: Brill标注,一种归纳标注方法。基于转换的学习:猜每个词的标记,然后返回和修复错误。在这种方式中,Brill标注器将会陆续将一个不良标注的文本转换成一个更好的。需要已经标注的训练数据来评估标注器的猜测是否是一个错误。 (1) ThePresidentsaid he willask Congressto increase grantsto states for vocational rehabi... 阅读全文
posted @ 2013-05-26 16:09 createMoMo 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 一元标注(Unigram Tagging) 一元标注基于简单的统计算法,对每个标识符分配这个独特的标识符最有可能的标记。 >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown_sents= brown.sents(categories='new... 阅读全文
posted @ 2013-05-26 15:50 createMoMo 阅读(1579) 评论(0) 推荐(0) 编辑
摘要: 在这里有不同的方式来给文本自动添加词性标记。 一个词的标记,要依赖于这个词和它在句子中的上下文。 所以:我们将处理句子层次而不是词汇层次的数据。 下面的所有代码示例中都以这些代码为基础: >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown... 阅读全文
posted @ 2013-05-26 11:00 createMoMo 阅读(978) 评论(0) 推荐(0) 编辑