摘要: 在爬取网站之前,要做以下几项工作 1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。 2.检查网站地图 3.估算网站大小 利用百度或者谷歌搜索 Site:example.webscraping.com 结果如下 找到相关结果数约5个 数字为估算值。网站管理员如需了解 阅读全文
posted @ 2017-10-03 22:27 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1.robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器 阅读全文
posted @ 2017-10-01 23:52 逍遥游2 阅读(1338) 评论(0) 推荐(0) 编辑
摘要: 1.统计词频的concordance() 函数 格式:text.concordance(“the text word”) 例如 :text.concordance(word) text1.concordance("monstrous")Displaying 11 of 11 matches:ong 阅读全文
posted @ 2017-10-01 00:11 逍遥游2 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 1. 在安装了NLTK 之后,打开python 输入 import nltk ,没有报错表示安装成功过 2. 运行 nltk.download() 命令 ,会出现下载页面 经过多次下载 出错多次,终于成功 有需要的可以 @我,通过 百度网盘共享 http://pan.baidu.com/s/1bpe 阅读全文
posted @ 2017-10-01 00:03 逍遥游2 阅读(846) 评论(0) 推荐(0) 编辑
摘要: 以下内容为WINDOWS 7 环境下安装PIP包 总体步骤如下 nltk 官方地址 http://www.nltk.org/ 查看 installing NLTK ,页面显示 requires Python versions 2.7, 3.4, or 3.5 ,也就是说NLTK目前支持这几个版本。 阅读全文
posted @ 2017-09-28 02:12 逍遥游2 阅读(243) 评论(0) 推荐(0) 编辑