上一页 1 ··· 4 5 6 7 8 9 下一页
摘要: WordNet是面向语义的英语词典,类似于传统词典,但具有更丰富的结构。NLTK中包括英语WordNet,有很多词和同义词的集合。意义与同义词具有相同含义的词是同义词。#在wordnet中怎样探索这些同义词from nltk.corpus import wordnet as wnWn.synsets(‘motorcar’)[Synset(‘car.n.01’)]通过对这段程度的分析可以知道:Motorcar只有一个可能的含义;这个含义被定义为car.n.01,car的第一个名词的意义。Car.n.01被称为synset或者同义词集#意思相同的词或者词条的集合wn.synset(‘car.n.0 阅读全文
posted @ 2013-05-24 10:08 createMoMo 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 词典或者词典资源是一个词/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。一个词项包括词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不同的词拼写相同,被称为同音异义词。词汇列表语料库NLTK包括一些仅仅包含词汇列表的语料库。#过滤文本,这个函数计算文本的词汇表,然后删除所有在现有的词汇列表中出现的元素,只留下罕见或者拼写错误的词。def unusual_words(text):text_vocab=set(w.lower() for w in text if w.isalpha())english_vocab=set(w.lower() for w in nltk. 阅读全文
posted @ 2013-05-24 10:04 createMoMo 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 使用文本编辑器创建程序我们可以通过Idle创建一个新的文件,然后输入代码,最后进行保存。比如我们保存了一个名为monty.py的文件,想引进做同样的事情的时候,就可以使用From monty import *函数例如我们可以自己定义具有某种功能的函数:def lexical_diversity(my_text_data): Word_count=len(my_text_data) Vocab_size=len(set(my_text_data)) Diversity_score=word_count/vocab_size return diversity_score模块在一个文件中... 阅读全文
posted @ 2013-05-22 12:32 createMoMo 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 条件概率分布是频率分布的集合,每个频率分布有一个不同的条件。这个条件通常是文本的类别。它的每对的形式是:(条件、事件)按文体计数词汇#先从语料库中设置条件频率分布From nltk.corpus import brownCfd=nltk.ConditionalFreqDist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre)#可以选择自己感兴趣的进行查看,组成一个以对为元素的链表Genre_word=[(genre,word)For genre in [‘news’,’rom 阅读全文
posted @ 2013-05-22 12:30 createMoMo 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 古藤堡语料库(电子文本档案经过挑选的一小部分文本)#语料库中所有的文件Import nltkNltk.corpus.gutenberg.fileids() From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’) #挑选其中的某一部著作进行操作Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.word 阅读全文
posted @ 2013-05-22 12:27 createMoMo 阅读(2530) 评论(0) 推荐(0) 编辑
摘要: 在11.4使用XML这一节当中,有一段代码在我的系统上运行不过去。书中给出了提示,如果Python在2.5以下的话,那么有可能会运行不过去。但是我查了自己的版本符合要求,是2.5的版本。具体的代码在这里:>>>from nltk.etree.ElementTree import ElementTree也就是引入XML处理的ElementTree这句的时候,出现了错误。Traceback (most recent call last): File "<pyshell#5>", line 1, in <module> from nltk 阅读全文
posted @ 2013-05-20 20:00 createMoMo 阅读(3064) 评论(0) 推荐(0) 编辑
摘要: 我也是一名NLP的新手,导师给了我们入门的学习资料,便是《Natural Language Processing with Python》的国内爱好者免费翻译的中文版。在中文版中,难免有一些小错误,大部分错误经过自己的稍微仔细研读可以改正过来。 在这里发现了一处代码上的小错误,供大家分享。在11.3数据采集中的“处理濒危语言时特别注意事项”小节里面,有一处将辅音字母顺序规范化的代码。这段代码其实并不难理解。但是在中文版的翻译中,可能是由于排版者的不小心疏忽,造成了排版错误。在中文版的当中,这段代码是这样的:>>>mappings= [('ph', 'f 阅读全文
posted @ 2013-05-19 22:14 createMoMo 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 其实,出现这个问题很简单。会有三种可能:1、没有安装Prover9。你可以根据这个链接进行下载:http://www.cs.unm.edu/~mccune/mace4/download/LADR1007B-win.zip(适合Windows系统),如果你的操作系统是别的,那么也有相对应的版本,可以去官网进行下载。那么第2种可能,就是设置不当,还是会造成无法找到Prover9这个错误。根据Python的提示,“PROVER9HOMEenvironment variable”我们需要自己设置一个系统变量来使程序继续进行,当然也可以使用Python自带的设置函数。这里只介绍系统变量的方法。根据它的提 阅读全文
posted @ 2013-05-18 16:42 createMoMo 阅读(1712) 评论(0) 推荐(0) 编辑
摘要: 一些前提数据:tokens = ['I', 'shot', 'an', 'elephant', 'in', 'my', 'pajamas']tokens为将要研究的一句英文句子。index={(DeT, N): NP, (Det, N, PP): NP, (NP, VP): S, (P, NP): PP, (V, NP): VP, (VP, PP): VP, ('I',): NP, ('an',): Det, ('elephant',) 阅读全文
posted @ 2013-05-16 15:51 createMoMo 阅读(513) 评论(0) 推荐(0) 编辑
摘要: Traceback (most recent call last):File "<pyshell#155>", line 3, in <module>print nltk.sem.show_raw_rtuple(rel,Icon=True,rcon=True)AttributeError: 'module' object has no attribute 'show_raw_rtuple'在7.6关系抽取中,有这样一段代码>>>IN = re.compile(r'.*\bin\b(?!\b.+ 阅读全文
posted @ 2013-05-15 16:32 createMoMo 阅读(878) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 下一页