随笔分类 - Python爬虫
摘要:现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场,将鼠标移动到【女装/男装/内衣】这一栏目,我们可以看到更细类的展示 假如我们现在需要爬取【羽绒服】,那么我们进入到【羽绒服】衣服这个界面 此时查看浏览器地址,我们可以看到 网址...
阅读全文
摘要:首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将
阅读全文
摘要:我们在爬取页面的时候,如果长时间使用一个网址去爬取某个网站,就会受爬去限制,此时,我们引用了代理IP,IP随时在变化,也就不会被限制了 一下是国内提供免费代理IP的地址:http://www.xicidaili.com/ 我们打开这个网页后可以看到如下图的代理IP与地址 上图标记部分就是一个代理IP
阅读全文
摘要:从网上下载了一段源码,执行过程中报错:No module named 'requests'一看英文就明白是咋回事了~ 是由于:没有模块requests解决方案打开cmd,在窗口运行命令:pip install requests安装成功以后再次运行,无错误了!
阅读全文
摘要:之前学习了正则表达式,但是发现如果用正则表达式写网络爬虫,那是相当的复杂啊!于是就有了Beautiful Soup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分
阅读全文
摘要:re.math()函数从源字符串的起始位置匹配一个模式语法:re.match(pattern, string, flag)第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python....
阅读全文
摘要:元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次,'+'表示匹配前一个字符
阅读全文
摘要:原子是正则表达式的最基本的组成单位,而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。 原子分类 1.普通字符作为原子 普通字符是编写正则表达式时最常见的原子了,包括所有的大写和小写字母字符、所有数字等。例如,a——z、A——Z、0——9。 运行结果 2.一
阅读全文
摘要:大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存...
阅读全文
摘要:Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯,信号、数据传递等。Sch...
阅读全文
摘要:urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法 参数url:传入的网址,网址必须得是个字符串 参数filename:指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函...
阅读全文
摘要:urllib.error可以接受来自urllib.request产生的异常。urllib.error有两个方法:①URLError ②HTTPErrorURLErrorURLError产生的原因①网络无连接,即本机无法上网②连接不到特定的服务器③服务器不存在运行结果表明:连接超时HTTPErrorHTTPError是URLError的子类,在你利用URLopen方法发出一个请求时,服务器上都会对应...
阅读全文
摘要:上一节进行了网页的简单抓取,接下来我们详细的了解一下两个重要的参数url与data urlopen详解 URL参数 Open the URL url, which can be either a string or a Request object. 大概意思:URL参数不仅可以是一个字符串也可以是
阅读全文
摘要:运行平台:Winodows 10 Python版本:Python 3.4.2 IDE:Sublime text3 网络爬虫 网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baid...
阅读全文