随笔分类 -  爬虫

摘要:scrapy框架简介个基础应用 简介 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 对于框架的学习,重点是要学习其 阅读全文
posted @ 2019-01-10 16:00 小学弟- 阅读(275) 评论(0) 推荐(0) 编辑
摘要:一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。 Selenium的核心Selenium Core基于JsUni 阅读全文
posted @ 2019-01-10 15:35 小学弟- 阅读(245) 评论(0) 推荐(0) 编辑
摘要:在编写爬虫进行网页数据的时候,大多数情况下,需要在请求是增加请求头 python下非常好用的伪装请求头的库:fake-useragent,具体使用说明如下: 安装fake-useragent库 安装fake-useragent库 pip install fake-useragent 获取各浏览器的f 阅读全文
posted @ 2019-01-08 15:20 小学弟- 阅读(349) 评论(0) 推荐(0) 编辑
摘要:高级用法 本篇文档涵盖了 Requests 的一些高级特性。 会话对象 会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求,底层的 阅读全文
posted @ 2019-01-07 22:03 小学弟- 阅读(561) 评论(0) 推荐(0) 编辑
摘要:快速上手 迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引。其假设你已经安装了 Requests。如果还没有,去安装一节看看吧。 首先,确认一下: Requests 已安装 Requests 是最新的 让我们从一些简单的示例开始吧。 发送请求 使用 Requests 发送网络请求 阅读全文
posted @ 2019-01-07 22:02 小学弟- 阅读(232) 评论(0) 推荐(0) 编辑
摘要:jupyter notebook环境安装 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter 阅读全文
posted @ 2019-01-07 21:39 小学弟- 阅读(126) 评论(0) 推荐(0) 编辑
摘要:引入 回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而 阅读全文
posted @ 2019-01-07 21:37 小学弟- 阅读(353) 评论(0) 推荐(0) 编辑
摘要:爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上。 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先 阅读全文
posted @ 2019-01-07 21:33 小学弟- 阅读(205) 评论(0) 推荐(0) 编辑
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-01-07 21:32 小学弟- 阅读(250) 评论(0) 推荐(0) 编辑
摘要:import requests from requests.exceptions import RequestException import re import json # 获取TOP100榜页面的URL def get_url_links(): base_url = 'http://maoyan.com/board/4?offset=' list_url = [] ... 阅读全文
posted @ 2018-08-06 23:20 小学弟- 阅读(137) 评论(0) 推荐(0) 编辑