【语言处理与Python】3.5正则表达式的有益作用
提取字符块
#找到所有的无重叠的匹配指定的正则表达式 re.findall(r’[aeiou]’,word) #看看一些文本中的两个或者两个以上的元音序列,并确定他们的相对频率 wsf=sorted((set(nltk.corpus.treebank.words())) fd=nltk.FreqDist(vs for word in wsj for vs in re.findall(r’[aeiou]{2,}’,word)) fd.items()
在字符块上做更多事情
#我们可以对元组进行索引操作,这样可以更方便的使用 nltk.Index()
查找词干
抽出一个词的词干的方法有很多种,最简单直观的办法就是直接去掉看起来像一个后缀的字符。
#首先使用正则表达式,建立一个所有后缀的连接 re.findall(r’^.*(ing|ly|ed|ious|ies|ive|es|s|ment’)$’,’processing’)
这样匹配出来的的结果是[‘ing’]
#注意:这里只是返回给了我们后缀。这是因为括号有第二个功能,选择要提取的子字符串,#这一点很重要,如果这一点遗忘,那么后面的阅读将会非常的不顺利。如果想要使用括号 #来指定连接的范围,但不想选择要输出的字符串,必须添加“?:”,他是许多神秘奥妙的正#则表达式之一。 #使用正则表达式把词干和后缀分离。但是要注意*是贪婪的,如果要取消他的贪婪要加? re.findall(r’^(.*)(ing|ly|ed|ious|ies|ive|es|s|ment)$’,’processing’) [(‘process’,’ing’)]
搜索已分词文本
#注意尖括号和小括号的作用 from nltk.corpus import gutenberg,nps_chat moby=nltk.Text(gutenberg.words(‘melville-moby_dick.txt’)) moby.findall(r‘<a>(<.*>)<man>’) #最终结果是显示满足小括号里面的内容 monied;nervous;dangerous;white;white;white;pious; queer; good; mature;white;Cape;great; wise;wise;butterless; white;fiendish; pale; furious; better;certain; complete; dismasted; younger;brave; brave; brave; brave