摘要: 4.3风格的问题详细请参考Python相关书籍或者资料。4.4函数:结构化编程的基础#怎样比较正规的写一个函数import re def get_text(file): “””Read text from a file,normailizing whites space and stripping HTML markup.””” text=….. …. return text文档说明函数docstringdef accuracy(reference, test): """Calculatethe fraction of test items that equal 阅读全文
posted @ 2013-05-24 23:24 createMoMo 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 我们应该知道,我们常用的有三种序列。他们分别是:字符串、链表、还有一种为元组。 >>>t ='walk', 'fem', 3 >>>t ('walk', 'fem', 3) >>>t[0] 'walk' >>>t[1:] ('fem', 3) >>len(t)序列类型上的操作遍历操作:zip函数 >>>words= ['I', '... 阅读全文
posted @ 2013-05-24 20:41 createMoMo 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 赋值 注意赋值有值赋值和引用赋值(在这里不详细介绍,可以查阅Python相关资料) 等式 ==,只判断值是否相等 如果使用is,则是在判断值的基础上还会判断是否是同一个对象 条件语句 if 'cat' in animals: print 1 elif 'dog' in animals: print 2#不要忘记any和all all(len(w)... 阅读全文
posted @ 2013-05-24 20:22 createMoMo 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 从链表到字符串silly=['We', 'called', 'him', 'Tortoise', 'because', 'he', 'taught', 'us', '.']‘ ’.join(silly)'We calledhim Tortoisebecausehetaught us.’#join()方法适合于一个字符串的链表字符串与格式#字符串格式化表达式for word in fdist:print ‘%s->%d;’%(word,fd 阅读全文
posted @ 2013-05-24 20:15 createMoMo 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 分词是一个更普遍的分割问题的一个实例。在这里我们还会看到分割问题的另外两个实例2.断句#NLTK的Punkt句子分割器sent_tokenizer=nltk.data.load(‘tokenizers/punkt/english.pickle’)text=nltk.corpus.gutenberg.raw(‘chesterton-thursday.txt’)sents=sent_tokenizer.tokenize(text)#注意:断句其实是困难的,因为在一些缩写里面也包括标记句子结束的句号。(6.2中还有一种断句方法)分词比如,会遇到这样的例子:a. doyouseethekittyb.s 阅读全文
posted @ 2013-05-24 20:11 createMoMo 阅读(1051) 评论(0) 推荐(0) 编辑
摘要: 分词是将字符串切割成可识破的构成一块语言数据的语言单元。 分词的简单方法 raw = """'When I'M a Duchess,'she said to herself, (not in a very hopeful tone... though), 'I won'thave any pepper in mykitchenATALL.Soupdoesvery... wellwithout--M... 阅读全文
posted @ 2013-05-24 20:05 createMoMo 阅读(1551) 评论(0) 推荐(1) 编辑
摘要: 词干提取器porter=nltk.PorterStemmer()lancaster=nltk.LancasterStemmer()[porter.stem(t) for t in tokens][lancaster.stem(t) for t in tokens] 词形归并#WordNet词形归并器删除词缀产生的词wnl=nltk.WordNetLemmatizer()[wnl.lemmatize(t) for t in tokens] 阅读全文
posted @ 2013-05-24 16:15 createMoMo 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 提取字符块#找到所有的无重叠的匹配指定的正则表达式re.findall(r’[aeiou]’,word)#看看一些文本中的两个或者两个以上的元音序列,并确定他们的相对频率wsf=sorted((set(nltk.corpus.treebank.words()))fd=nltk.FreqDist(vs for word in wsj for vs in re.findall(r’[aeiou]{2,}’,word))fd.items()在字符块上做更多事情#我们可以对元组进行索引操作,这样可以更方便的使用nltk.Index()查找词干抽出一个词的词干的方法有很多... 阅读全文
posted @ 2013-05-24 16:14 createMoMo 阅读(458) 评论(0) 推荐(0) 编辑
摘要: import re使用基本的元字符#检测以XXX为结尾[w for w in wordlist if re.search(‘ed$’,w)]#.匹配任何单个字符,^以X开头[w for w in wordlist if re.search(‘^..j..t..$’,w)]#?表示出现0或者1次(具体正则表达式相关内容,请查阅相关资料)范围与闭包#寻找一些由相同的按键次序打出的词汇[w for w in wordlist if re.search(‘^[ghi][mno][jkl][def]$’,w)]#+,*有的时候被称为Kleene闭包或者干脆闭包#一些常用的正则表达式基本元字符 阅读全文
posted @ 2013-05-24 16:12 createMoMo 阅读(347) 评论(0) 推荐(0) 编辑
摘要: Unicode支持超过一百万种字符;每个字符分配一个编号,成为编码点;在Python中,编码点写作\uXXXX的形式,其中XXXX是四位十六进制数;从文件中提取已编码文本#得到一个文件的路径(知道这个文件的编码)path= nltk.data.find('corpora/unicode_samples/polish-lat2.txt')import codecsf=codecs.open(path,encoding=’latin2’)#从文件对象f读出的文本将以Unicode返回,如果想在终端查看,必须使用合适的编码对它进行编码;unicode_escape是一种虚拟的编码fo 阅读全文
posted @ 2013-05-24 16:10 createMoMo 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 字符串的基本操作#字符串跨行(这种方式不会有换行,简单的字符串连接)Couplet=”Shall I compare thee to a Summer’s day?"\“Thou are more lovely and more temperate:”Couplet=(“Rough winds do shake the darling buds of May,”“And Summer’s lease hath all too short a date:”)#如果想包含换行,可以使用三重引号Couplet=”””Shall I compare thee to a Summer’s da 阅读全文
posted @ 2013-05-24 16:06 createMoMo 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 本章开始导入语句from __future__ import divisionimport nltk,re,pprint 3.1从网络和硬盘访问文本电子书from urllib import urlopenurl=”http://www.gutenberg.org/files/2554/2554.txt”raw=urlopen(url).read()#如果使用了Internet代理,需要手工指定代理proxies={‘http’:’http://www.someproxy.com:3128’}raw=urlopen(url,proxies=proxies).read()#对得到的文本分词操作t 阅读全文
posted @ 2013-05-24 16:05 createMoMo 阅读(385) 评论(0) 推荐(0) 编辑
摘要: WordNet是面向语义的英语词典,类似于传统词典,但具有更丰富的结构。NLTK中包括英语WordNet,有很多词和同义词的集合。意义与同义词具有相同含义的词是同义词。#在wordnet中怎样探索这些同义词from nltk.corpus import wordnet as wnWn.synsets(‘motorcar’)[Synset(‘car.n.01’)]通过对这段程度的分析可以知道:Motorcar只有一个可能的含义;这个含义被定义为car.n.01,car的第一个名词的意义。Car.n.01被称为synset或者同义词集#意思相同的词或者词条的集合wn.synset(‘car.n.0 阅读全文
posted @ 2013-05-24 10:08 createMoMo 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 词典或者词典资源是一个词/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。一个词项包括词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不同的词拼写相同,被称为同音异义词。词汇列表语料库NLTK包括一些仅仅包含词汇列表的语料库。#过滤文本,这个函数计算文本的词汇表,然后删除所有在现有的词汇列表中出现的元素,只留下罕见或者拼写错误的词。def unusual_words(text):text_vocab=set(w.lower() for w in text if w.isalpha())english_vocab=set(w.lower() for w in nltk. 阅读全文
posted @ 2013-05-24 10:04 createMoMo 阅读(454) 评论(0) 推荐(0) 编辑