摘要:
我们可以借助python的第三方库openpyxl来实现 安装openpyxl: pip3 install openpyxl 演示:创建一个学生信息表(stuInfo.xlsx) from openpyxl import Workbook wb = Workbook() #创建工作簿 ws = wb 阅读全文
摘要:
有时候,我们想让程序在某个特定时间段内去多次执行某个任务,比如每天凌晨3点-4点,隔10秒执行一次任务,接下来,我们就用python自带的datetime模块和threading模块去实现它,代码如下: import datetime import threading #任务描述:每天凌晨3-4点, 阅读全文
摘要:
Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求 1、安装 sudo pip3 install scrapy 2 阅读全文
摘要:
reduce函数 工具函数reduce在functools模块中,所以需要先导入:from functools import reduce reduce(function, sequence[, initial]) -> value reduce函数会对参数序列中元素进行累加,如果给定了初始值ini 阅读全文
摘要:
一、map函数 map(func, *iterables) --> map object map函数会根据提供的函数对指定序列做映射,并返回一个迭代器,结果取决于最短的这个序列 序列的个数,取决于function需要几个参数 示例 In [1]: list(map(lambda x:x**2,[1, 阅读全文
摘要:
爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu 阅读全文
摘要:
集合是python中的一种常见数据类型,它的元素具有唯一性(不重复),因此常用来进行列表快速去重等。 一、集合的创建 set() 新建一个空的集合对象 set(iterable) 新建一个集合对象,传入参数为可迭代对象,比如字符串、列表等 示例 In [1]: s1 = set() #新建一个空的集 阅读全文
摘要:
现在许多网站的登陆都会比较复杂,有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。 使用Cookie来模拟登陆,就是用户在浏览器先登录网站,然后将Cookie信息拷贝出来,用来设置请求的Cookie。 以模拟登陆知乎为例: from selenium import webdriver fro 阅读全文
摘要:
通过使用用百度AI的OCR来自动识别图片中的文字,效果很不错。 在这里跟大家简单分享一下如何使用,在处理图片前,最好先经过灰度化、二值化、降噪等预处理,直接上代码: # coding:utf-8 import requests import base64 # import jsonpath from 阅读全文
摘要:
爬取糗事百科的段子,观察不同页面url的变化,以第2页为例,https://www.qiushibaike.com/text/page/2/,第3页https://www.qiushibaike.com/text/page/3/,找到规律,只需要将后面的数字改成对应页码即可。 说明: 使用reque 阅读全文