摘要:
Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求 1、安装 sudo pip3 install scrapy 2 阅读全文
摘要:
reduce函数 工具函数reduce在functools模块中,所以需要先导入:from functools import reduce reduce(function, sequence[, initial]) -> value reduce函数会对参数序列中元素进行累加,如果给定了初始值ini 阅读全文
摘要:
一、map函数 map(func, *iterables) --> map object map函数会根据提供的函数对指定序列做映射,并返回一个迭代器,结果取决于最短的这个序列 序列的个数,取决于function需要几个参数 示例 In [1]: list(map(lambda x:x**2,[1, 阅读全文
摘要:
爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu 阅读全文
摘要:
集合是python中的一种常见数据类型,它的元素具有唯一性(不重复),因此常用来进行列表快速去重等。 一、集合的创建 set() 新建一个空的集合对象 set(iterable) 新建一个集合对象,传入参数为可迭代对象,比如字符串、列表等 示例 In [1]: s1 = set() #新建一个空的集 阅读全文
摘要:
现在许多网站的登陆都会比较复杂,有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。 使用Cookie来模拟登陆,就是用户在浏览器先登录网站,然后将Cookie信息拷贝出来,用来设置请求的Cookie。 以模拟登陆知乎为例: from selenium import webdriver fro 阅读全文
摘要:
通过使用用百度AI的OCR来自动识别图片中的文字,效果很不错。 在这里跟大家简单分享一下如何使用,在处理图片前,最好先经过灰度化、二值化、降噪等预处理,直接上代码: # coding:utf-8 import requests import base64 # import jsonpath from 阅读全文
摘要:
爬取糗事百科的段子,观察不同页面url的变化,以第2页为例,https://www.qiushibaike.com/text/page/2/,第3页https://www.qiushibaike.com/text/page/3/,找到规律,只需要将后面的数字改成对应页码即可。 说明: 使用reque 阅读全文
摘要:
主要用到python图片处理库-PIL库,同时需要注意字体.tff文件存放的具体目录,通常在/usr/share/fonts下,自己找找看 # coding:utf-8 import random import stringfrom PIL import Image, ImageDraw, Imag 阅读全文
摘要:
MongoDB是一个基于分布式 文件存储的NoSQL数据库,适合存储JSON风格文件的形式。 三元素:数据库、集合和文档。 文档:对应着关系数据库中的行,就是一个对象,由键值对构成,是json的扩展Bson形式,示例 {'name':'guojing','gender':'男'} 集合:类似于关系数 阅读全文