04 2021 档案
摘要:有时候,我们想让程序在某个特定时间段内去多次执行某个任务,比如每天凌晨3点-4点,隔10秒执行一次任务,接下来,我们就用python自带的datetime模块和threading模块去实现它,代码如下: import datetime import threading #任务描述:每天凌晨3-4点,
阅读全文
摘要:Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求 1、安装 sudo pip3 install scrapy 2
阅读全文
摘要:reduce函数 工具函数reduce在functools模块中,所以需要先导入:from functools import reduce reduce(function, sequence[, initial]) -> value reduce函数会对参数序列中元素进行累加,如果给定了初始值ini
阅读全文
摘要:一、map函数 map(func, *iterables) --> map object map函数会根据提供的函数对指定序列做映射,并返回一个迭代器,结果取决于最短的这个序列 序列的个数,取决于function需要几个参数 示例 In [1]: list(map(lambda x:x**2,[1,
阅读全文
摘要:爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu
阅读全文
摘要:集合是python中的一种常见数据类型,它的元素具有唯一性(不重复),因此常用来进行列表快速去重等。 一、集合的创建 set() 新建一个空的集合对象 set(iterable) 新建一个集合对象,传入参数为可迭代对象,比如字符串、列表等 示例 In [1]: s1 = set() #新建一个空的集
阅读全文
摘要:现在许多网站的登陆都会比较复杂,有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。 使用Cookie来模拟登陆,就是用户在浏览器先登录网站,然后将Cookie信息拷贝出来,用来设置请求的Cookie。 以模拟登陆知乎为例: from selenium import webdriver fro
阅读全文
摘要:通过使用用百度AI的OCR来自动识别图片中的文字,效果很不错。 在这里跟大家简单分享一下如何使用,在处理图片前,最好先经过灰度化、二值化、降噪等预处理,直接上代码: # coding:utf-8 import requests import base64 # import jsonpath from
阅读全文
摘要:爬取糗事百科的段子,观察不同页面url的变化,以第2页为例,https://www.qiushibaike.com/text/page/2/,第3页https://www.qiushibaike.com/text/page/3/,找到规律,只需要将后面的数字改成对应页码即可。 说明: 使用reque
阅读全文
摘要:主要用到python图片处理库-PIL库,同时需要注意字体.tff文件存放的具体目录,通常在/usr/share/fonts下,自己找找看 # coding:utf-8 import random import stringfrom PIL import Image, ImageDraw, Imag
阅读全文