Python爬虫 - 随笔分类(第3页) - OLIVER_QIN

【Python3 爬虫】14_爬取淘宝上的手机图片

摘要：现在我们想要使用爬虫爬取淘宝上的手机图片，那么该如何爬取呢？该做些什么准备工作呢？首先，我们需要分析网页，先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场，将鼠标移动到【女装/男装/内衣】这一栏目，我们可以看到更细类的展示假如我们现在需要爬取【羽绒服】，那么我们进入到【羽绒服】衣服这个界面此时查看浏览器地址，我们可以看到网址... 阅读全文

posted @ 2018-04-22 14:55 OLIVER_QIN 阅读(1720) 评论(0) 推荐(0) 编辑

【Python3 爬虫】13_爬取博客园首页所有文章

摘要：首先，我们确定博客园首页地址为：https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页，如下图：我们以上图标记的文章为例子吧！打开网页源码，搜索Docker,搜索结果如下图：从上图后红色标记部分可以看出，我们使用正则表达式即可匹配该网址，我们匹配到该网址之后，将阅读全文

posted @ 2018-04-22 09:34 OLIVER_QIN 阅读(995) 评论(0) 推荐(1) 编辑

【Python3 爬虫】12_代理IP的使用

摘要：我们在爬取页面的时候，如果长时间使用一个网址去爬取某个网站，就会受爬去限制，此时，我们引用了代理IP，IP随时在变化，也就不会被限制了一下是国内提供免费代理IP的地址：http://www.xicidaili.com/ 我们打开这个网页后可以看到如下图的代理IP与地址上图标记部分就是一个代理IP 阅读全文

posted @ 2018-04-21 22:26 OLIVER_QIN 阅读(272) 评论(0) 推荐(0) 编辑

【Python3 爬虫】11_报错No module named 'requests'

摘要：从网上下载了一段源码，执行过程中报错：No module named 'requests'一看英文就明白是咋回事了~ 是由于：没有模块requests解决方案打开cmd,在窗口运行命令：pip install requests安装成功以后再次运行，无错误了！阅读全文

posted @ 2018-04-04 14:04 OLIVER_QIN 阅读(310) 评论(0) 推荐(0) 编辑

【Python3 爬虫】10_Beautiful Soup库的使用

摘要：之前学习了正则表达式，但是发现如果用正则表达式写网络爬虫，那是相当的复杂啊！于是就有了Beautiful Soup 简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分阅读全文

posted @ 2018-03-28 18:13 OLIVER_QIN 阅读(888) 评论(0) 推荐(0) 编辑

【Python3 爬虫】09_正则表达式（re.math()、re.search()、re.sub()、全局匹配函数）

摘要：re.math()函数从源字符串的起始位置匹配一个模式语法：re.match(pattern, string, flag)第一个参数代表对应的正则表达式，第二个参数代表对应的源字符，第三个参数是可选参数，代表对应的标志位，可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文

posted @ 2018-03-27 15:07 OLIVER_QIN 阅读(1113) 评论(0) 推荐(0) 编辑

【Python3 爬虫】08_正则表达式（元字符与语法）

摘要：元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次，'+'表示匹配前一个字符阅读全文

posted @ 2018-03-27 13:48 OLIVER_QIN 阅读(311) 评论(0) 推荐(0) 编辑

【Python3 爬虫】07_正则表达式（原子）

摘要：原子是正则表达式的最基本的组成单位，而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。原子分类 1.普通字符作为原子普通字符是编写正则表达式时最常见的原子了，包括所有的大写和小写字母字符、所有数字等。例如，a——z、A——Z、0——9。运行结果 2.一阅读全文

posted @ 2018-03-27 13:28 OLIVER_QIN 阅读(326) 评论(0) 推荐(0) 编辑

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

摘要：大多数网站都会定义robots.txt文件来限制爬虫爬去信息，我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如：我们以【CSDN博客】的限制信息为例子在浏览器输入：https://blog.csdn.net/robots.txt获取到信息如下：从上图我们可以看出：①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文

posted @ 2018-03-27 10:57 OLIVER_QIN 阅读(685) 评论(0) 推荐(0) 编辑

【Python3 爬虫】05_安装Scrapy

摘要：Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯，信号、数据传递等。Sch... 阅读全文

posted @ 2018-03-26 18:00 OLIVER_QIN 阅读(458) 评论(0) 推荐(0) 编辑

【Python3 爬虫】04_urllib.request.urlretrieve

摘要：urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法参数url:传入的网址，网址必须得是个字符串参数filename:指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函... 阅读全文

posted @ 2018-03-24 21:57 OLIVER_QIN 阅读(5867) 评论(0) 推荐(0) 编辑

【Python3 爬虫】03_urllib.error异常处理

摘要：urllib.error可以接受来自urllib.request产生的异常。urllib.error有两个方法：①URLError ②HTTPErrorURLErrorURLError产生的原因①网络无连接，即本机无法上网②连接不到特定的服务器③服务器不存在运行结果表明：连接超时HTTPErrorHTTPError是URLError的子类，在你利用URLopen方法发出一个请求时，服务器上都会对应... 阅读全文

posted @ 2018-03-23 10:35 OLIVER_QIN 阅读(956) 评论(0) 推荐(1) 编辑

【Python3 爬虫】02_利用urllib.urlopen向百度翻译发送数据并返回结果

摘要：上一节进行了网页的简单抓取,接下来我们详细的了解一下两个重要的参数url与data urlopen详解 URL参数 Open the URL url, which can be either a string or a Request object. 大概意思：URL参数不仅可以是一个字符串也可以是阅读全文

posted @ 2018-03-22 17:17 OLIVER_QIN 阅读(1134) 评论(0) 推荐(1) 编辑

【Python3 爬虫】01_简单页面抓取

摘要：运行平台：Winodows 10 Python版本：Python 3.4.2 IDE：Sublime text3 网络爬虫网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。举一个简单的例子，我们在浏览器的地址栏中输入的字符串就是URL，例如：https://www.baid... 阅读全文

posted @ 2018-03-22 12:02 OLIVER_QIN 阅读(618) 评论(0) 推荐(0) 编辑

随笔分类 - Python爬虫

公告