摘要:
在Linux系统下运行python终端,发现方向键失灵,总是出现「^[[C^[[D」等,可通过安装gnureadline模块解决 如下: sudo pip3 install gnureadline 阅读全文
摘要:
一、认识Excel文件 Excel文件也被称做工作簿(workbook)。 每个工作簿可以包含多个工作表(sheet)。用户当前查看的表或关闭Excel前最后查看的表,被称为活动表。 每张表都是由行和列组成。列是以A开始的字母表示,行是以1开始的数字表示。 由特定行和列所指定的方格被称为单元格(ce 阅读全文
摘要:
css选择器 常用的选择器有如下几种: 1、标签选择器 标签选择器,此种选择器影响范围大,建议尽量应用在层级选择器中。举例: *{margin:0;padding:0} div{color:red} <div>....</div> <!-- 对应以上两条样式 --> <div class="box" 阅读全文
摘要:
知乎登陆验证码问题比较棘手,所以我们可以考虑通过cookie来模拟登陆。 思路: 1、通过浏览器手动登陆知乎,利用抓包工具(如Fiddler等)来获取登陆后的cookie信息,并将其处理成dict类型。 2、然后使用requests的会话(Session)对象来携带cookie信息发送请求,因为同一 阅读全文
摘要:
我们将之前的阳光热线问政平台爬虫案例,改写成Scrapy-redis分布式爬虫 1.items.py import scrapy class MyprojectItem(scrapy.Item): number = scrapy.Field() #帖子编号 title = scrapy.Field( 阅读全文
摘要:
Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 一、Scrapy-Redis分布式策略: Master端(核心服务器):搭建一个Redis数据库,并开启redis-server 阅读全文
摘要:
一、要求 爬取世纪佳缘网当中(20-28周岁、来自北京、有图片的女孩)信息,包括昵称、婚姻状况、身高、年龄、学历、工作地点、自我介绍、择偶要求、个人主页链接以及个人图片链接。 二、分析 网站数据采用的js分页,通过Fiddler抓包工具分析: url:https://search.jiayuan.c 阅读全文
摘要:
一、安装 sudo pip3 install pillow 二、简单使用 # coding:utf-8 from PIL import Image,ImageDraw,ImageFont from io import BytesIO #打开图片 img = Image.open('图片名')#从本地 阅读全文
摘要:
我们可以借助python的第三方库openpyxl来实现 安装openpyxl: pip3 install openpyxl 演示:创建一个学生信息表(stuInfo.xlsx) from openpyxl import Workbook wb = Workbook() #创建工作簿 ws = wb 阅读全文
摘要:
有时候,我们想让程序在某个特定时间段内去多次执行某个任务,比如每天凌晨3点-4点,隔10秒执行一次任务,接下来,我们就用python自带的datetime模块和threading模块去实现它,代码如下: import datetime import threading #任务描述:每天凌晨3-4点, 阅读全文