python自然语言处理——3.1 从网络和硬盘访问文本
微信公众号:数据运营人
本系列为博主的读书学习笔记,如需转载请注明出处。
第三章 加工原料文本
3.1 从网络和硬盘访问文本电子书处理的HTML处理RSS订阅读取本地文件
3.1 从网络和硬盘访问文本
电子书
NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenberg.org/catalog/上浏览其他书籍,下面以编号2554的文本《罪与罚》为例,简单介绍怎么通过Python访问。
from urllib.request import urlopen
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
raw = str(urlopen(url).read())
print(raw)
print(type(raw))
print(len(raw))
print(raw[:75])
tokens = nltk.word_tokenize(raw)
print(type(tokens))
print(len(tokens))
print(tokens[:10])
text = nltk.Text(tokens)
print(type(text))
print(text[1020:1060])
print(text.collocations())
print(raw.find("PAPT I"))
print(raw.rfind("End of Project Gutenberg's Crime"))
print(raw[5303:1157681])
print(raw.find("PART I"))
处理的HTML
from bs4 import BeautifulSoup
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = str(urlopen(url).read())
print(html[:60])
raw = BeautifulSoup(html).get_text()
tokens = nltk.word_tokenize(raw)
print(tokens)
tokens = tokens[96:399]
text = nltk.Text(tokens)
print(text.concordance('gene'))
处理RSS订阅
import feedparser
llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
print(llog['feed']['title'])
print(len(llog.entries))
post = llog.entries[2]
print(post.title)
content = post.content[0].value
print(content[:70])
读取本地文件
f = open('document.txt')
raw = f.read()