摘要: 本文从最简单的爬虫开始,通过添加检测下载错误,设置用户代理,设置网络代理,逐渐完善爬虫功能 。首先 说明一下代码的使用方法 :在python2.7 环境下,用命令行也可以,用Pycharm编辑也可以。通过定义函数,然后引用函数完成网页抓取例如 : download (”HTTP://www.baid 阅读全文
posted @ 2017-10-08 20:16 逍遥游2 阅读(732) 评论(0) 推荐(0) 编辑
摘要: 我们在目标网站打开时发现一些网页ID是连续的数字时,这时候我们就可以用ID遍历的方式进行爬取,但是这样的网站弱点比较少见,特别是有一些ID数字是十多位的数字,这样爬取的时候就会花大量的时间,所以说这样的方法并不是最高效的方法max_errors=5# current number of consec 阅读全文
posted @ 2017-10-08 17:10 逍遥游2 阅读(359) 评论(0) 推荐(0) 编辑
摘要: python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜索string,以列表形式返回全部能匹配的子串。先看个简单的代码:import re p = re.compile(r'\d+')pr 阅读全文
posted @ 2017-10-08 15:08 逍遥游2 阅读(22258) 评论(0) 推荐(0) 编辑
摘要: 1.设置用户代理 默认情况下,urliib2使用python-urllib、2.7 作为用户代理下载网页内容,其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理,确保下载更加可靠,我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理 阅读全文
posted @ 2017-10-08 15:00 逍遥游2 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 首先要说明的是,一下代码是在python2.7版本下检测的 一.最简单的爬虫程序 --下载网页 1、urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口,这是具有利用不同协议获取URLs的能力 阅读全文
posted @ 2017-10-07 23:52 逍遥游2 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 刚好用到,这篇文章写得不错,转过来收藏。 转载自 道可道 | Python 标准库 urllib2 的使用细节 Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 库的使用细 阅读全文
posted @ 2017-10-07 21:18 逍遥游2 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Pytho 阅读全文
posted @ 2017-10-06 20:49 逍遥游2 阅读(123) 评论(0) 推荐(0) 编辑
摘要: from http://obmem.info/?p=476 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强 阅读全文
posted @ 2017-10-06 20:47 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明和函数定义可以出现在不同的文件中,比如C语言),但是在Python中,函数声明和函数定义是视为一体的。在Python中,函数定义的基本形式如下: 在这里说明几点: (1)在Python中采用def关键字进行函数的定义,不用指 阅读全文
posted @ 2017-10-05 00:14 逍遥游2 阅读(1238) 评论(0) 推荐(0) 编辑
摘要: 1.打开pycharm,点击File,再点击settings 2.点击settings之后再点击project下面的project Interpreter将会出现如下界面: 3.点击“+”号,搜索并安装相应的 模块 阅读全文
posted @ 2017-10-03 23:53 逍遥游2 阅读(438) 评论(0) 推荐(0) 编辑