摘要: scrapy 是一款常用的爬虫框架,可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的: 首先要在命令行下转到你要创建的文件夹下: cd 目标文件夹路径 创建的是一个工程 创建命令: scrapy startproject 工程名称 (自己随意) 创建完工程后要进入到 阅读全文
posted @ 2019-02-19 15:00 微雨丶 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 2019/1/30 晚上 路飞学城 爬虫课程 笔记 首先需要导入一个第三方的模块 Selenium 导入完成后需要下载浏览器的 驱动 放在文件目录下 用以控制浏览器 Chrome 浏览器驱动下载地址和对应的驱动版本列表: 驱动地址:http://chromedriver.storage.google 阅读全文
posted @ 2019-01-30 01:49 微雨丶 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 2019/1/25凌晨 路飞学城爬虫课程,requests + BeautifulSoup 库实现中国古诗词网站名著《三国演义》的下载 BeautifulSoup 库是一种常用的网页解析库,可以对网页数据进行解析得到自己想要的数据,一下为基础方法: 属性和方法: soup = BeautifulSo 阅读全文
posted @ 2019-01-25 13:22 微雨丶 阅读(222) 评论(0) 推荐(1) 编辑
摘要: 2019/1/24 中午路飞学成 爬虫课程 实验及笔记。 Xpath是路飞爬虫课程中老师说的三种解析方式之一,前面是re正则表达式的解析方式,现在是xpath的解析方式,后面还有一个是bs4的解析方式。 re其实我理解的很困难,而且到现在都还不怎么理解这个东西到底应该怎么去组合起来,进行匹配,反而这 阅读全文
posted @ 2019-01-24 21:51 微雨丶 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 2019/1/24 晚上路飞学城的爬虫课程,图片下载: 通过requests + re下载糗事百科商的图片 re表达式理解的不是很清楚,只能模糊理解,.*?是匹配全部的数据,.表示任意单个字符不包括换行符,*表示前面一个字符重复任意次,?表示签一个字符出现0次或者1次。 以下为代码: 阅读全文
posted @ 2019-01-24 00:26 微雨丶 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 使用requests加上打码平台云打码,实现登陆有图片验证的网站,是图片验证码。 豆瓣的登陆验证方式换了,换成点击验证和图片滑动验证组合的了,所以实验对象不能使用豆瓣了 图片不能是JS写入的,必须得有图片的url,不然没有办法获取验证码图片(我还在学基础的,SO不知道怎么获取js写入的图片) 然后我 阅读全文
posted @ 2019-01-23 10:06 微雨丶 阅读(825) 评论(0) 推荐(0) 编辑
摘要: 代理IP:一个IP多次频繁访问服务器,远超出正常访问水平的,有可能会被服务器封禁,所有需要有IP可以更换使用,被封掉一个我就换一个。# 代理操作: # 1. 代理指第三方代替本体执行操作 # 2. 为什么要使用代理? # 1. 反反爬操作 # 3. 分类: # 1. 正向代理:代替客户端获取数据 # 2. 反向代理:代替服务器端提供数据 ... 阅读全文
posted @ 2019-01-22 09:49 微雨丶 阅读(270) 评论(0) 推荐(0) 编辑
摘要: requests携带cookie的get请求: session对象会自己动携带cookie参数,所有使用session发起带cookie的请求 1.打开浏览器,输入豆瓣网的账号密码 2.点击 F12 键打开抓包工具 network,点击登陆按钮 3.找到 Login 负责URL 和 data参数,还 阅读全文
posted @ 2019-01-21 16:42 微雨丶 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 一个初学python的小白考虑算法和时间复杂的空间复杂度太远了。 在家看书看到一个小问题说到了冒泡排序,本着急切想了解高大上算法的python小白就去研究了一下 冒泡排序算法: 发现没有,两个方法得到的结果完全一样有木有?一个用了7行代码,而另一个就只有一行代码?我脑子瓦特啦?还用算法,还那么难学 阅读全文
posted @ 2019-01-18 12:03 微雨丶 阅读(1304) 评论(0) 推荐(1) 编辑