逍遥游2 - 博客园

2017年10月

摘要：在爬取网站之前，要做以下几项工作 1.下载并检查网站的robots.txt文件，让爬虫了解该网站爬取时有哪些限制。 2.检查网站地图 3.估算网站大小利用百度或者谷歌搜索 Site:example.webscraping.com 结果如下找到相关结果数约5个数字为估算值。网站管理员如需了解阅读全文

posted @ 2017-10-03 22:27 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑

robots.txt 文件是什么？如何获取

摘要： 1.robots.txt基本介绍 robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器阅读全文

posted @ 2017-10-01 23:52 逍遥游2 阅读(1338) 评论(0) 推荐(0) 编辑

Python: NLTK几个入门函数

摘要： 1.统计词频的concordance() 函数格式：text.concordance(“the text word”) 例如：text.concordance(word) text1.concordance("monstrous")Displaying 11 of 11 matches:ong 阅读全文

posted @ 2017-10-01 00:11 逍遥游2 阅读(214) 评论(0) 推荐(0) 编辑

nltk book的下载

摘要： 1. 在安装了NLTK 之后，打开python 输入 import nltk ，没有报错表示安装成功过 2. 运行 nltk.download() 命令，会出现下载页面经过多次下载出错多次，终于成功有需要的可以 @我，通过百度网盘共享 http://pan.baidu.com/s/1bpe 阅读全文

posted @ 2017-10-01 00:03 逍遥游2 阅读(846) 评论(0) 推荐(0) 编辑

2017年9月

nltk 环境安装（ WINDOWS 7 32位环境下）

摘要：以下内容为WINDOWS 7 环境下安装PIP包总体步骤如下 nltk 官方地址 http://www.nltk.org/ 查看 installing NLTK ,页面显示 requires Python versions 2.7, 3.4, or 3.5 ，也就是说NLTK目前支持这几个版本。阅读全文

posted @ 2017-09-28 02:12 逍遥游2 阅读(243) 评论(0) 推荐(0) 编辑

公告