随笔分类 - python
摘要:1、导出python环境中的所有依赖 pip freeze >requirements.txt 此方法会导出python环境所有安装过的依赖 2、仅导出当前项目中的依赖 需要使用pipreqs这个工具 安装 pip install pipreqs 然后进入项目的根目录,并执行 pipreqs . -
阅读全文
摘要:一、演示坑 tracks = [0, 0, 0, 1, 1, 1] for track in tracks: if track == 0: tracks.remove(track) print(tracks) # [0, 1, 1, 1] 发现:有一个0没有被删去,why??? 二、这次遍历时,带上
阅读全文
摘要:字符串转unicode字符串技术要点: ord()函数 format()函数 代码: def str_to_unicode(string, upper=True): '''字符串转unicode''' if upper is True: return ''.join(rf'\u{ord(x):04X
阅读全文
摘要:对于大多数图文验证码,均可以使用开源OCR识别库进行处理,比如ddddocr,接下来以ddddocr库进行示范 一、ddddocr库安装和使用 安装 pip install ddddocr 使用代码示例 import ddddocr ocr = ddddocr.DdddOcr(old=True) w
阅读全文
摘要:方式一:format() format(1.235, '.2f') Out[1]: '1.24' format(1.2, '.2f') Out[2]: '1.20' format(1.2, '.3f') Out[3]: '1.200' 返回值为字符串类型,末位会自动补0 方式二:round() ro
阅读全文
摘要:转换方法: from datetime import datetime, timedelta def utc_to_local(utc_str, timezone=8): ''' utc时间转本地时间 :param utc_str: utc时间字符串 :param timezone: 时区(默认东八
阅读全文
摘要:CSV文件,是按照逗号进行分隔的文件 一、写入操作 列表形式 逐行写入 import csv header = ['name', 'gender', 'age'] with open('./test.csv', 'w', encoding='utf-8-sig', newline='') as f:
阅读全文
摘要:针对某些网站使用HTTP/2.0协议,requests库是无法抓取数据的,这时就需要使用支持HTTP2.0的请求库,比如httpx 一、安装 pip3 install httpx 二、常规API import httpx url = 'http://www.httpbin.org/get' head
阅读全文
摘要:通过getopt模块中的getopt( )方法,我们可以获取和解析命令行传入的参数 一、函数用法 getopt(args, shortopts, longopts=[ ]) args:固定写法sys.argv[1:] shortopts:短参 字符串类型,限制命令行可传入的短参名称及格式(命令行可不
阅读全文
摘要:我们都知道获取环境中的所有依赖包命令: pip freeze > ./requirements.txt 但是,如果我们仅仅想获取当前项目中的安装包,我们可以使用pipreqs工具 安装: pip install pipreqs 在项目根目录下运行如下命令: pipreqs ./ 执行完上述命令后,则
阅读全文
摘要:一、首先检查是否已将python及pip目录添加至path环境变量 二、接下来再打开终端运行pip命令,如果不行,则在终端执行以下命令 python -m pip install --upgrade pip
阅读全文
摘要:一、安装fitz(需要依赖PyMuPDF) pip install fitz pip install pymupdf 二、代码演示 import os import pytesseract import cv2 as cv import fitz from PIL import Image from
阅读全文
摘要:1、需要使用到datetime模块中的 datetime,timedelta,timezone from datetime import datetime,timezone,timedelta # 导模块 2、datetme实例的replace()方法可以给实例添加时区信息tzinfo,并返回一个新
阅读全文
摘要:一、出现这种问题的原因 游标连接单次最大超时时间为10分钟,单次从mongo服务端获取的数据为101条或者1~16M,如果在10分钟内,未处理完获取的所有数据,则会报异常 二、解决方案 1、设置 no_cursor_timeout=True,即游标连接永不超时,需要手动关闭游标(可以利用with上下
阅读全文
摘要:思路:利用 pymupdf+pytesseract 通过pymupdf提取pdf文件中的图片,并写入到本地,然后利用tesseract-ocr去处理 1、安装pymupdf pip install pymupdf 虽然安装的库为pymupdf,实际上调用的包名为fitz 2、示例:提取pdf文件图片
阅读全文
摘要:openpyxl库不能够处理xls格式excel文件,这里可以使用python自带的包xlrd来进行处理 1、导包 import xlrd 2、打开文件 df = xlrd.open_workbook("test.xls") 3、sheet操作 # 获取sheet表单名 ['sheet1','she
阅读全文
摘要:# coding:utf-8 from idna import unichr def all_to_half(all_string): """全角转半角""" half_string = "" for char in all_string: inside_code = ord(char) if in
阅读全文
摘要:rocketmq-python 是一个基于 rocketmq-client-cpp 封装的 RocketMQ Python 客户端。 一、Producer #coding:utf-8import json from rocketmq.client import Producer, Message p
阅读全文
摘要:对xlsx文件和csv文件进行相互转换,我们可以借助pandas来实现 一、安装pandas pip3 install pandas 二、xlsx文件转csv文件 import pandas as pd data = pd.read_excel('test.xlsx',index_col=0) #
阅读全文
摘要:pdfplumber不仅可以解析提取pdf文件中的文本,还可以提取表格 一、安装 pip3 install pdfplumber 二、使用 # coding:utf-8 import pdfplumber with pdfplumber.open('./test.pdf') as pdf: # 遍历
阅读全文