摘要: 前言: 在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。 首先,了解一下urllib 阅读全文
posted @ 2019-01-02 23:08 我家有只大白兔 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个I 阅读全文
posted @ 2019-01-01 14:22 我家有只大白兔 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关知识,本节就来揭开它 阅读全文
posted @ 2018-12-30 13:06 我家有只大白兔 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 前言: 本次项目分为两部分。 第一部分编写的爬虫主要功能为爬取小说相关信息,例如小说标题、作者、简介以及小说链接等,并保存至mongoDB。随后对其增加了交互式界面,实现了小说种类的分类以及页面数限制,最后可获得感兴趣小说的完整小说内容并且自动创建文件夹保存至本地。 第二部分编写的爬虫主要是实现大规 阅读全文
posted @ 2018-12-26 22:11 我家有只大白兔 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息。其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中。本次爬取的内容实则不难。主要是熟悉scrapy相关命令以及理解框架各部分的作用。 1、本次目标 爬取豆瓣电影TOP250的信息,将得到的数据保存到mo 阅读全文
posted @ 2018-12-18 23:23 我家有只大白兔 阅读(2795) 评论(0) 推荐(0) 编辑
摘要: 前言: 写本次项目主要是忙里偷闲想看看漫画,决定写个爬虫练练手。爬取的过程中还是遇到了一些问题。所以这一次项目主要同样是用Selenium来模拟浏览器操作来获取全部图片,用xpath来解析出图片,最后将图片保存到本地。 1、本次目标 利用Selenium爬取漫画图片,将图片保存到本地。 2. 准备工 阅读全文
posted @ 2018-12-04 19:54 我家有只大白兔 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 用浏览器访问网站时,页面各不相同,你有没有想过它为何会呈现这个样子呢?本节中,我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成 网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当 阅读全文
posted @ 2018-11-27 22:11 我家有只大白兔 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1. URI和URL 这里我们先了解一下URI和URL,URI的全称为Uniform Resource Identifier,即统一资源标志符,URL的全称为Universal Resource Locator,即统一资源定位符。 举例来说,https://github.com/favicon.ic 阅读全文
posted @ 2018-11-26 16:47 我家有只大白兔 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 前言: 本次爬取的目标采用的Ajax方式加载页面信息,并且这些Ajax的接口参数比较复杂,想要构造Ajax参数模拟请求比较困难。对于这种页面,最方便快捷的抓取方法就是通过Selenium。使用Selenium来模拟浏览器操作,来抓取京东的商品信息,并将最后的结果保存至MongoDB中。 1. 本次目 阅读全文
posted @ 2018-11-19 21:30 我家有只大白兔 阅读(1249) 评论(0) 推荐(0) 编辑
摘要: css选择器 1、什么是选择器 每一条css样式声明(定义)由两部分组成,形式如下: 选择器{ 样式; } 在{}之前的部分就是“选择器”,“选择器”指明了{}中的“样式”的作用对象,也就是“样式”作用于网页中的哪些元素。 2、标签选择器 标签选择器其实就是html代码中的标签。如右侧代码编辑器中的 阅读全文
posted @ 2018-11-18 16:14 我家有只大白兔 阅读(142) 评论(0) 推荐(0) 编辑