eliwang

2021年5月10日

摘要：我们可以借助python的第三方库openpyxl来实现安装openpyxl： pip3 install openpyxl 演示：创建一个学生信息表（stuInfo.xlsx） from openpyxl import Workbook wb = Workbook() #创建工作簿 ws = wb 阅读全文

posted @ 2021-05-10 00:22 eliwang 阅读(5250) 评论(0) 推荐(0) 编辑

2021年4月29日

python定时任务的实现（在特定时间段内，间隔一定时间执行一次任务）

摘要：有时候，我们想让程序在某个特定时间段内去多次执行某个任务，比如每天凌晨3点-4点，隔10秒执行一次任务，接下来，我们就用python自带的datetime模块和threading模块去实现它，代码如下： import datetime import threading #任务描述：每天凌晨3-4点，阅读全文

posted @ 2021-04-29 14:31 eliwang 阅读(9015) 评论(0) 推荐(0) 编辑

2021年4月28日

爬虫框架-scrapy的使用

摘要： Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯，可以加快我们的下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求 1、安装 sudo pip3 install scrapy 2 阅读全文

posted @ 2021-04-28 03:37 eliwang 阅读(1728) 评论(0) 推荐(2) 编辑

2021年4月21日

python工具函数reduce的使用

摘要： reduce函数工具函数reduce在functools模块中，所以需要先导入：from functools import reduce reduce(function, sequence[, initial]) -> value reduce函数会对参数序列中元素进行累加，如果给定了初始值ini 阅读全文

posted @ 2021-04-21 22:24 eliwang 阅读(256) 评论(0) 推荐(0) 编辑

python内建函数map函数和filter函数的使用

摘要：一、map函数 map(func, *iterables) --> map object map函数会根据提供的函数对指定序列做映射，并返回一个迭代器，结果取决于最短的这个序列序列的个数，取决于function需要几个参数示例 In [1]: list(map(lambda x:x**2,[1, 阅读全文

posted @ 2021-04-21 21:57 eliwang 阅读(161) 评论(0) 推荐(0) 编辑

爬虫案例-使用selenium模拟点击动态页面

摘要：爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息，以jsonlines的形式写入到本地json文件中，代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu 阅读全文

posted @ 2021-04-21 05:08 eliwang 阅读(347) 评论(0) 推荐(0) 编辑

2021年4月20日

python中的集合(Set)的使用

摘要：集合是python中的一种常见数据类型，它的元素具有唯一性(不重复)，因此常用来进行列表快速去重等。一、集合的创建 set（）新建一个空的集合对象 set（iterable）新建一个集合对象，传入参数为可迭代对象，比如字符串、列表等示例 In [1]: s1 = set() #新建一个空的集阅读全文

posted @ 2021-04-20 17:33 eliwang 阅读(698) 评论(0) 推荐(0) 编辑

使用selenium时，如何通过cookie来模拟登陆？

摘要：现在许多网站的登陆都会比较复杂，有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。使用Cookie来模拟登陆，就是用户在浏览器先登录网站，然后将Cookie信息拷贝出来，用来设置请求的Cookie。以模拟登陆知乎为例： from selenium import webdriver fro 阅读全文

posted @ 2021-04-20 01:28 eliwang 阅读(503) 评论(0) 推荐(0) 编辑

爬虫--使用百度OCR来识别图片验证码

摘要：通过使用用百度AI的OCR来自动识别图片中的文字，效果很不错。在这里跟大家简单分享一下如何使用，在处理图片前，最好先经过灰度化、二值化、降噪等预处理，直接上代码： # coding:utf-8 import requests import base64 # import jsonpath from 阅读全文

posted @ 2021-04-20 01:02 eliwang 阅读(558) 评论(0) 推荐(0) 编辑

2021年4月9日

多线程爬虫案例-(糗事百科)

摘要：爬取糗事百科的段子，观察不同页面url的变化，以第2页为例，https://www.qiushibaike.com/text/page/2/，第3页https://www.qiushibaike.com/text/page/3/，找到规律，只需要将后面的数字改成对应页码即可。说明：使用reque 阅读全文

posted @ 2021-04-09 17:59 eliwang 阅读(79) 评论(0) 推荐(0) 编辑

学无止境的小渣渣

公告