微雨丶 - 博客园

2019年2月19日

摘要： scrapy 是一款常用的爬虫框架，可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的：首先要在命令行下转到你要创建的文件夹下： cd 目标文件夹路径创建的是一个工程创建命令： scrapy startproject 工程名称（自己随意）创建完工程后要进入到阅读全文

posted @ 2019-02-19 15:00 微雨丶阅读(141) 评论(0) 推荐(0)

2019年1月30日

Reptile：Selenium 浏览器自动化

摘要： 2019/1/30 晚上路飞学城爬虫课程笔记首先需要导入一个第三方的模块 Selenium 导入完成后需要下载浏览器的驱动放在文件目录下用以控制浏览器 Chrome 浏览器驱动下载地址和对应的驱动版本列表：驱动地址：http://chromedriver.storage.google 阅读全文

posted @ 2019-01-30 01:49 微雨丶阅读(129) 评论(0) 推荐(0)

2019年1月25日

Reptile:requests + BeautifulSopu 实现古诗词网三国名著下载

摘要： 2019/1/25凌晨路飞学城爬虫课程，requests + BeautifulSoup 库实现中国古诗词网站名著《三国演义》的下载 BeautifulSoup 库是一种常用的网页解析库，可以对网页数据进行解析得到自己想要的数据，一下为基础方法：属性和方法： soup = BeautifulSo 阅读全文

posted @ 2019-01-25 13:22 微雨丶阅读(247) 评论(0) 推荐(1)

2019年1月24日

Reptile：requests + Xpath 爬取段子网的段子

摘要： 2019/1/24 中午路飞学成爬虫课程实验及笔记。 Xpath是路飞爬虫课程中老师说的三种解析方式之一，前面是re正则表达式的解析方式，现在是xpath的解析方式，后面还有一个是bs4的解析方式。 re其实我理解的很困难，而且到现在都还不怎么理解这个东西到底应该怎么去组合起来，进行匹配，反而这阅读全文

posted @ 2019-01-24 21:51 微雨丶阅读(142) 评论(0) 推荐(0)

Reptile：requests + re 实现糗事百科糗图栏目图片下载

摘要： 2019/1/24 晚上路飞学城的爬虫课程，图片下载：通过requests + re下载糗事百科商的图片 re表达式理解的不是很清楚，只能模糊理解，.*？是匹配全部的数据，.表示任意单个字符不包括换行符，*表示前面一个字符重复任意次，？表示签一个字符出现0次或者1次。以下为代码：阅读全文

posted @ 2019-01-24 00:26 微雨丶阅读(166) 评论(0) 推荐(0)

2019年1月23日

Reptile:requests + 云打码平台实现识别图片验证码登陆

摘要：使用requests加上打码平台云打码，实现登陆有图片验证的网站，是图片验证码。豆瓣的登陆验证方式换了，换成点击验证和图片滑动验证组合的了，所以实验对象不能使用豆瓣了图片不能是JS写入的，必须得有图片的url，不然没有办法获取验证码图片（我还在学基础的，SO不知道怎么获取js写入的图片) 然后我阅读全文

posted @ 2019-01-23 10:06 微雨丶阅读(928) 评论(0) 推荐(0)

2019年1月22日

Reptile:requests代理IP

摘要：代理IP：一个IP多次频繁访问服务器，远超出正常访问水平的，有可能会被服务器封禁，所有需要有IP可以更换使用，被封掉一个我就换一个。# 代理操作: # 1. 代理指第三方代替本体执行操作 # 2. 为什么要使用代理？ # 1. 反反爬操作 # 3. 分类： # 1. 正向代理：代替客户端获取数据 # 2. 反向代理：代替服务器端提供数据 ... 阅读全文

posted @ 2019-01-22 09:49 微雨丶阅读(281) 评论(0) 推荐(0)

2019年1月21日

Reptile: requests-cookie-session

摘要： requests携带cookie的get请求： session对象会自己动携带cookie参数，所有使用session发起带cookie的请求 1.打开浏览器，输入豆瓣网的账号密码 2.点击 F12 键打开抓包工具 network，点击登陆按钮 3.找到 Login 负责URL 和 data参数，还阅读全文

posted @ 2019-01-21 16:42 微雨丶阅读(139) 评论(0) 推荐(0)

2019年1月18日

python 列表的sorted方法与排序算法的差异

摘要：一个初学python的小白考虑算法和时间复杂的空间复杂度太远了。在家看书看到一个小问题说到了冒泡排序，本着急切想了解高大上算法的python小白就去研究了一下冒泡排序算法：发现没有，两个方法得到的结果完全一样有木有？一个用了7行代码，而另一个就只有一行代码？我脑子瓦特啦？还用算法，还那么难学阅读全文

posted @ 2019-01-18 12:03 微雨丶阅读(1320) 评论(0) 推荐(1)

公告