摘要: from selenium import webdriver from lxml import etree import time bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('http://125.35.6.84 阅读全文
posted @ 2020-06-21 10:30 自己有自己的调调、 阅读(1911) 评论(0) 推荐(0) 编辑
摘要: 完整代码 import threading import requests from lxml import etree import os from urllib import request from queue import Queue #案例: #需要将多个页码对应页面中的图片进行爬取。 # 阅读全文
posted @ 2020-06-21 08:33 自己有自己的调调、 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 异步协程 wait()方法的作用 wait方法的参数只能是任务列表,作用:wait可以将任务列表中的每一个任务对象进行可挂起操作 挂起 可以让当前被挂起的任务对象交出CPU的使用权 实现异步的原理: 当任务列表被wait方法修饰且已经被注册到事件循环中后,loop就会先去执行第一个任务对象, 在执行 阅读全文
posted @ 2020-06-21 01:49 自己有自己的调调、 阅读(383) 评论(0) 推荐(0) 编辑
摘要: Python 现阶段三大主流Web框架 1、Django Tornado Flask 对比 1.Django 主要特点是大而全,集成了很多组件,例如: Models Admin Form 等等, 不管你用得到用不到,反正它全都有,属于全能型框架 2.Tornado 主要特点是原生异步非阻塞,在IO密 阅读全文
posted @ 2020-06-20 21:52 自己有自己的调调、 阅读(254) 评论(0) 推荐(1) 编辑
摘要: 有25匹马,速度都不同,但每匹马的速度都是定值。现在只有5条赛道,无法计时,即每赛一场最多只能知道5匹马的相对快慢。问最少赛几场可以找出25匹马中速度最快的前3名?(百度2008年面试题) 解答思路: 每匹马都至少要有一次参赛的机会,所以25匹马分成5组,一开始的这5场比赛是免不了的。接下来要找冠军 阅读全文
posted @ 2020-06-18 23:46 自己有自己的调调、 阅读(1074) 评论(0) 推荐(0) 编辑
摘要: 单线程+多任务异步协程(重点) 协程的基本使用asyncio 1、特殊的函数 一个函数表示一组指定的操作。 import asyncio from time import sleep def get_request(url): print('正在下载:',url) sleep(2) print('下 阅读全文
posted @ 2020-06-18 23:16 自己有自己的调调、 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 概要: 验证码识别 模拟登录 1、验证码识别 案例需求: 将古诗文网中的验证码进行识别 需要基于一些线上的打码平台进行验证码识别 需要将页面中的验证码图片进行下载,然后将其提交给平台进行识别 常用的打码平台: 超级鹰: 云打码 打码兔、 等等等。。。 import random from lxml 阅读全文
posted @ 2020-06-18 22:11 自己有自己的调调、 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 概要: cookie反爬处理机制 代理机制 1、cookie反爬处理机制 案例1: 爬取雪球网站中相关的新闻数据 url:https://xueqiu.com/ import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10. 阅读全文
posted @ 2020-06-18 22:07 自己有自己的调调、 阅读(1406) 评论(0) 推荐(0) 编辑
摘要: 1、xpath解析 1.1、环境的安装: ​ pip install lxml 1.2、实现流程: 1.实例化一个etree类型的对象,且把即将被解析的页面源码内容加载到该对象中 2.调用etree对象中的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 1.3、etree对象的 阅读全文
posted @ 2020-06-17 22:22 自己有自己的调调、 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1、引入 聚焦爬虫:在通用爬虫的基础之上,可以将一张页面中局部指定的数据进行爬取。可以通过数据解析的方式将一张页面中局部的数据进行解析或者提取。 数据解析方式: 正则 bs4 xpath(重点) pyquery 聚焦爬虫编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 2、数据解 阅读全文
posted @ 2020-06-17 22:18 自己有自己的调调、 阅读(204) 评论(0) 推荐(0) 编辑