05 2021 档案
摘要:scrapy不建议通过爬虫文件来发送请求下载大文件,而是通过scrapy已经封装好的管道类去执行,效率更高 管道类: from scrapy.pipelines.files import FilesPipeline # 专门用来下载文件的管道类 from scrapy.pipelines.image
阅读全文
摘要:一、目标网页及要求 目标网页: https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 要求: 爬取页面中的详情页文章标题、内容、发布时间、文章来源,存入本地mongodb
阅读全文
摘要:一、简介 在执行某些IO密集型任务的时候,程序常常会因为等待 IO 而阻塞。为解决这一问题,可以考虑使用python中的协程异步。 从 Python 3.4 开始,Python 中加入了协程的概念,但这个版本的协程还是以生成器对象为基础的,在 Python 3.5 则增加了关键字async/awai
阅读全文
摘要:pandas对Numpy进行了封装,简化了操作。其数据结构主要是DataFrame(类似于多维数组)和Series(类似于一维数组)。 一、安装 pip install pandas 二、引用 import pandas as pd 三、Series对象 创建 语法:pd.Series(data=N
阅读全文
摘要:一、Numpy介绍 NumPy是Python中科学计算的基础包,它的核心是 ndarray(多维数组)对象,简称数组。数组由同种类型的元素组成,可以通过整数元组进行索引。在Numpy中,维度称为轴(axis),轴的个数称为秩(rank).。比如[1,2,3]是一维数组,具有一个轴,由3个元素组成,即
阅读全文
摘要:在Linux系统下运行python终端,发现方向键失灵,总是出现「^[[C^[[D」等,可通过安装gnureadline模块解决 如下: sudo pip3 install gnureadline
阅读全文
摘要:一、认识Excel文件 Excel文件也被称做工作簿(workbook)。 每个工作簿可以包含多个工作表(sheet)。用户当前查看的表或关闭Excel前最后查看的表,被称为活动表。 每张表都是由行和列组成。列是以A开始的字母表示,行是以1开始的数字表示。 由特定行和列所指定的方格被称为单元格(ce
阅读全文
摘要:css选择器 常用的选择器有如下几种: 1、标签选择器 标签选择器,此种选择器影响范围大,建议尽量应用在层级选择器中。举例: *{margin:0;padding:0} div{color:red} <div>....</div> <!-- 对应以上两条样式 --> <div class="box"
阅读全文
摘要:知乎登陆验证码问题比较棘手,所以我们可以考虑通过cookie来模拟登陆。 思路: 1、通过浏览器手动登陆知乎,利用抓包工具(如Fiddler等)来获取登陆后的cookie信息,并将其处理成dict类型。 2、然后使用requests的会话(Session)对象来携带cookie信息发送请求,因为同一
阅读全文
摘要:我们将之前的阳光热线问政平台爬虫案例,改写成Scrapy-redis分布式爬虫 1.items.py import scrapy class MyprojectItem(scrapy.Item): number = scrapy.Field() #帖子编号 title = scrapy.Field(
阅读全文
摘要:Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 一、Scrapy-Redis分布式策略: Master端(核心服务器):搭建一个Redis数据库,并开启redis-server
阅读全文
摘要:一、要求 爬取世纪佳缘网当中(20-28周岁、来自北京、有图片的女孩)信息,包括昵称、婚姻状况、身高、年龄、学历、工作地点、自我介绍、择偶要求、个人主页链接以及个人图片链接。 二、分析 网站数据采用的js分页,通过Fiddler抓包工具分析: url:https://search.jiayuan.c
阅读全文
摘要:一、安装 sudo pip3 install pillow 二、简单使用 # coding:utf-8 from PIL import Image,ImageDraw,ImageFont from io import BytesIO #打开图片 img = Image.open('图片名')#从本地
阅读全文
摘要:我们可以借助python的第三方库openpyxl来实现 安装openpyxl: pip3 install openpyxl 演示:创建一个学生信息表(stuInfo.xlsx) from openpyxl import Workbook wb = Workbook() #创建工作簿 ws = wb
阅读全文