10 2017 档案

摘要:通过之前的学习,我们编写了两个基本的爬虫。但对于一些内容大的网站,我们就需要对其进行跟踪链接,利用正则表达式来确定需要下载的页面。1.正则表达式 下载链接 ,其中 urlparse 模块用来实现相对路径转换成绝对路径,通过一个 import reimport urlparse def link_cr 阅读全文
posted @ 2017-10-08 20:58 逍遥游2 阅读(198) 评论(0) 推荐(0) 编辑
摘要:我们在访问网站的时候,发现有些网页ID 是按顺序排列的数字,这个时候我们就可以使用ID遍历的方式来爬取内容。但是局限性在于有些ID数字在10位数左右,那么这样爬取效率就会很低很低!import itertoolsfrom common import downloaddef iteration(): 阅读全文
posted @ 2017-10-08 20:35 逍遥游2 阅读(280) 评论(0) 推荐(0) 编辑
摘要:以下定义了一个网站地图爬虫, 阅读全文
posted @ 2017-10-08 20:30 逍遥游2 阅读(827) 评论(0) 推荐(0) 编辑
摘要:本文从最简单的爬虫开始,通过添加检测下载错误,设置用户代理,设置网络代理,逐渐完善爬虫功能 。首先 说明一下代码的使用方法 :在python2.7 环境下,用命令行也可以,用Pycharm编辑也可以。通过定义函数,然后引用函数完成网页抓取例如 : download (”HTTP://www.baid 阅读全文
posted @ 2017-10-08 20:16 逍遥游2 阅读(732) 评论(0) 推荐(0) 编辑
摘要:我们在目标网站打开时发现一些网页ID是连续的数字时,这时候我们就可以用ID遍历的方式进行爬取,但是这样的网站弱点比较少见,特别是有一些ID数字是十多位的数字,这样爬取的时候就会花大量的时间,所以说这样的方法并不是最高效的方法max_errors=5# current number of consec 阅读全文
posted @ 2017-10-08 17:10 逍遥游2 阅读(358) 评论(0) 推荐(0) 编辑
摘要:python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜索string,以列表形式返回全部能匹配的子串。先看个简单的代码:import re p = re.compile(r'\d+')pr 阅读全文
posted @ 2017-10-08 15:08 逍遥游2 阅读(22251) 评论(0) 推荐(0) 编辑
摘要:1.设置用户代理 默认情况下,urliib2使用python-urllib、2.7 作为用户代理下载网页内容,其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理,确保下载更加可靠,我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理 阅读全文
posted @ 2017-10-08 15:00 逍遥游2 阅读(216) 评论(0) 推荐(0) 编辑
摘要:首先要说明的是,一下代码是在python2.7版本下检测的 一.最简单的爬虫程序 --下载网页 1、urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口,这是具有利用不同协议获取URLs的能力 阅读全文
posted @ 2017-10-07 23:52 逍遥游2 阅读(372) 评论(0) 推荐(0) 编辑
摘要:刚好用到,这篇文章写得不错,转过来收藏。 转载自 道可道 | Python 标准库 urllib2 的使用细节 Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 库的使用细 阅读全文
posted @ 2017-10-07 21:18 逍遥游2 阅读(158) 评论(0) 推荐(0) 编辑
摘要:《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Pytho 阅读全文
posted @ 2017-10-06 20:49 逍遥游2 阅读(123) 评论(0) 推荐(0) 编辑
摘要:from http://obmem.info/?p=476 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强 阅读全文
posted @ 2017-10-06 20:47 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑
摘要:在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明和函数定义可以出现在不同的文件中,比如C语言),但是在Python中,函数声明和函数定义是视为一体的。在Python中,函数定义的基本形式如下: 在这里说明几点: (1)在Python中采用def关键字进行函数的定义,不用指 阅读全文
posted @ 2017-10-05 00:14 逍遥游2 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:1.打开pycharm,点击File,再点击settings 2.点击settings之后再点击project下面的project Interpreter将会出现如下界面: 3.点击“+”号,搜索并安装相应的 模块 阅读全文
posted @ 2017-10-03 23:53 逍遥游2 阅读(438) 评论(0) 推荐(0) 编辑
摘要:在爬取网站之前,要做以下几项工作 1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。 2.检查网站地图 3.估算网站大小 利用百度或者谷歌搜索 Site:example.webscraping.com 结果如下 找到相关结果数约5个 数字为估算值。网站管理员如需了解 阅读全文
posted @ 2017-10-03 22:27 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑
摘要:1.robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器 阅读全文
posted @ 2017-10-01 23:52 逍遥游2 阅读(1307) 评论(0) 推荐(0) 编辑
摘要:1.统计词频的concordance() 函数 格式:text.concordance(“the text word”) 例如 :text.concordance(word) text1.concordance("monstrous")Displaying 11 of 11 matches:ong 阅读全文
posted @ 2017-10-01 00:11 逍遥游2 阅读(214) 评论(0) 推荐(0) 编辑
摘要:1. 在安装了NLTK 之后,打开python 输入 import nltk ,没有报错表示安装成功过 2. 运行 nltk.download() 命令 ,会出现下载页面 经过多次下载 出错多次,终于成功 有需要的可以 @我,通过 百度网盘共享 http://pan.baidu.com/s/1bpe 阅读全文
posted @ 2017-10-01 00:03 逍遥游2 阅读(844) 评论(0) 推荐(0) 编辑