随笔档案「2013年5月26日」：【语言处理与Python】6.2有监督分类的更多例子 ... - createMoMo

2013年5月26日

摘要：句子分割第一步，是获得一些已经被分割的句子的数据，将他转换成一种合适的提取特征的形式。 sents=nltk.corpus.treebank_raw.sents()tokens=[]boundaries=set()offset=0for sent in nltk.corpus.treebank_raw.sents(): tokens.extend(sent) offset+... 阅读全文

posted @ 2013-05-26 22:55 createMoMo 阅读(506) 评论(0) 推荐(0)

【语言处理与Python】6.1有监督分类

摘要：模式识别是自然语言处理的一个核心部分。 6.1有监督分类分类：是为给定的输入选择正确的类标签任务。有监督分类：如果分类的基础基于包含每个输入正确标签的训练语料。有监督分类的使用框架图如下：性别鉴定让我们以性别鉴定这个简单的例子，再次解释上述图形的流程。背景：男女的名字是有一定背景的，以此为背景来解释。在这里我们以每个名字的最后一个字母为特征来标志是否为男女。 1、确... 阅读全文

posted @ 2013-05-26 21:56 createMoMo 阅读(1511) 评论(0) 推荐(0)

【语言处理与Python】5.7如何确定一个词的分类

摘要：形态学线索从词的内部结构可能为这个词分类提供有用的线索。例如：-ness与形容词结合可能是一个名词；-ment是与一些动词结合产生一个名词的后缀；英语的动词也是形态复杂的。例如：-ing有可能是现在分词、也有可能是动名词句法线索一个词可能出现的典型上下文例如：假设我们已经确定了名词类，我们可以说，英语的形容词的句法标准是可以立即出现在一个名词前，或者紧跟在be或者very的后面语义线索一个词的意思对其词汇范畴是一个有用的线索。新词比如很多的新词都是名词，这些名词属于开放类；介词被认为是封闭类，因为只有有限的词汇属于这个类别；词性标记集中的形态学例如有的词却有不同的形态，在更细粒度的分词上需要注阅读全文

posted @ 2013-05-26 16:35 createMoMo 阅读(1254) 评论(0) 推荐(0)

【语言处理与Python】5.6基于转换的标注

摘要： Brill标注，一种归纳标注方法。基于转换的学习：猜每个词的标记，然后返回和修复错误。在这种方式中，Brill标注器将会陆续将一个不良标注的文本转换成一个更好的。需要已经标注的训练数据来评估标注器的猜测是否是一个错误。 (1) ThePresidentsaid he willask Congressto increase grantsto states for vocational rehabi... 阅读全文

posted @ 2013-05-26 16:09 createMoMo 阅读(609) 评论(0) 推荐(0)

【语言处理与Python】5.5N-gram标注

摘要：一元标注（Unigram Tagging）一元标注基于简单的统计算法，对每个标识符分配这个独特的标识符最有可能的标记。 >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown_sents= brown.sents(categories='new... 阅读全文

posted @ 2013-05-26 15:50 createMoMo 阅读(1598) 评论(0) 推荐(0)

【语言处理与Python】5.4自动标注

摘要：在这里有不同的方式来给文本自动添加词性标记。一个词的标记，要依赖于这个词和它在句子中的上下文。所以：我们将处理句子层次而不是词汇层次的数据。下面的所有代码示例中都以这些代码为基础： >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown... 阅读全文

posted @ 2013-05-26 11:00 createMoMo 阅读(992) 评论(0) 推荐(0)

createMoMo

公告