文章分类 -  爬虫

摘要:目录About无返回值的多任务有返回值的多任务 返回上一页 About asyncio的鼎鼎大名就不用多说了吧,谁用谁糊涂! 今天来看看它儿子怎么aiohttp怎么用。 download pip install aiohttp 无返回值的多任务 import time import asyncio 阅读全文
posted @ 2019-09-23 18:53 听雨危楼 阅读(660) 评论(0) 推荐(0) 编辑
摘要:目录Aboutrequests.request()请求接受的参数响应对象支持的属性requests.get()params参数headerscookies文件下载requests.post()data参数文件上传json参数requests.head()requests.put()requests. 阅读全文
posted @ 2019-09-16 22:37 听雨危楼 阅读(8369) 评论(2) 推荐(1) 编辑
摘要:目录楔子AboutUsage其他用法处理异常 返回上一页 楔子 在爬虫中进行request请求,很多时候,都需要添加请求头,不然服务器会认为是非法的请求,从而拒绝你的访问。 import requests url = 'https://www.zhihu.com/question/315387406 阅读全文
posted @ 2019-09-16 09:29 听雨危楼 阅读(7623) 评论(0) 推荐(3) 编辑
摘要:目录Abouturllib、urllib2、urllib3傻傻分不清楚urllib.request请求响应request对象Cookie代理下载urllib.errorurllib.parseurllib.robotparserRobots协议RobotFileParser常见报错Attribute 阅读全文
posted @ 2019-09-15 01:14 听雨危楼 阅读(1531) 评论(0) 推荐(0) 编辑
摘要:import re import random import requests from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from multiprocessing import cp 阅读全文
posted @ 2019-08-24 14:19 听雨危楼 阅读(372) 评论(0) 推荐(0) 编辑
摘要:目录依赖简单爬取汽车之家新闻页首页爬取新闻页前一百页多线程爬取汽车之家新闻页前100页线程池爬取汽车之家新闻页前100页进程池爬取汽车之家新闻页前100页混爬汽车之家好多页 依赖 爬取汽车之家用到了Python的两个库: requests:模拟浏览器发送请求 BeautifulSoup4:解析爬取的 阅读全文
posted @ 2019-03-01 09:26 听雨危楼 阅读(452) 评论(0) 推荐(1) 编辑
摘要:目录单线程+多任务异步协程基本使用多任务操作多任务实战aiohttp多进程+异步协程多任务实战 返回Python目录 单线程+多任务异步协程 首先下载模块: pip install asyncio 基本使用 我们通过几个概念展开...... 几个概念需要了解 特殊的函数:如果一个函数被async修饰 阅读全文
posted @ 2018-04-08 15:58 听雨危楼 阅读(698) 评论(1) 推荐(0) 编辑