随笔分类 -  Python

摘要:思路:设置切块允许的最大文本长度,先按照允许的最大文本长度切出一个chunk,然后检查chunk内部是否存在逗号、句号、感叹号、问号、空格等自然的语义分割符,若存在,在把该chunk继续切分,否则,该切块就是最终的切块。 def cut_text(full_text, max_chunk_size= 阅读全文
posted @ 2025-08-04 15:31 morein2008 阅读(46) 评论(0) 推荐(0)
摘要:好奇fastapi到底有多fast,今天用jmeter实测了一下,不过如此,也就比Flask快点吧,跟sanic是没法比的: 1. jmeter调用本地sanic服务(2个进程),服务器配置:win11,8GB内存,8核,客户端200个线程,100次循环: 平均耗时=32ms,P95=58ms,TP 阅读全文
posted @ 2025-04-21 18:37 morein2008 阅读(225) 评论(0) 推荐(0)
摘要:我在离线的服务器上通过conda activate gpt进入gpt环境后,想更新gpt中的transformers包(v4.26.1升级到4.29.1),于是手动去清华源(https://pypi.tuna.tsinghua.edu.cn/simple/) 下载好transformers4.29. 阅读全文
posted @ 2023-06-09 16:51 morein2008
摘要:一、可迭代对象:可以用for遍历的对象,包括list、set、dict等。 二、迭代器:能够记录当前迭代位置的可迭代对象,就是迭代器。 1)把list、set、dict等简单的可迭代对象用iter()函数包装一下,就成了迭代器。 例如 x=iter([1,2,3]) # type(x) 输出 lis 阅读全文
posted @ 2023-04-25 10:43 morein2008
摘要:在py代码中利用middleware()方法修饰request/response即可,无需别的操作。 from sanic import Sanic, HTTPResponse, Requestapp=Sanic('Sanic_Server') @app.middleware("request") 阅读全文
posted @ 2023-04-11 13:04 morein2008
摘要:https://download.pytorch.org/whl/torch_stable.html 阅读全文
posted @ 2022-10-19 17:12 morein2008
摘要:Python解析Xml from lxml import etree def get_info_from_xml(xml_text): try: parser = etree.XMLParser(recover=True) tree = etree.fromstring(bytes(xml_text 阅读全文
posted @ 2022-10-13 15:31 morein2008
摘要:用命令即可: python3 -m torch.distributed.launch --master_port 10001 --nproc_per_node 8 train.py 其中设置master_port是为了避免端口已被其他进程占用而报错,若报错可设置一个新端口号为master_port 阅读全文
posted @ 2022-09-01 18:08 morein2008
摘要:disable SettingWithCopyWarning: import pandas as pd pd.options.mode.chained_assignment = None 一了百了。 阅读全文
posted @ 2021-08-20 00:05 morein2008 阅读(99) 评论(0) 推荐(0)
摘要:temp.py: def func(): print('func is called.') class A: def __init__(self,name='A'): self.name=name def _say(self,msg): print(msg) def sayhello(self): 阅读全文
posted @ 2021-01-20 11:04 morein2008
摘要:用装饰器实现把函数用try...except包起来: import logging import traceback from functools import wraps logging.basicConfig(filename='error.log', level=logging.INFO, f 阅读全文
posted @ 2021-01-18 19:38 morein2008
摘要:多线程与多进程的应用场景不一样:1、线程的创建开销小、由于GIL的存在,无法真正并行,适合GUI、网络通信、文件读写等IO密集型场景;2、进程的创建开销大,可以充分利用多个CPU实现并行,适合计算量比较大(比如单个函数执行需要几分钟、几十分钟以上),且无需IO(简单地说就是数据已经在内存中,不需要读 阅读全文
posted @ 2020-12-04 20:34 morein2008
摘要:每月个人所得税、税后薪资计算器: def due_tax(due_income): ''' 本函数计算年度应缴个税 :param due_income:本年累计应纳税所得额 :return:本月应缴个税金额 ''' if 0<due_income<=36000:return due_income*0 阅读全文
posted @ 2020-09-10 15:53 morein2008
摘要:发现python的正则模块re的findall方法跟我预想的不太一样,它匹配的时候会消耗掉之前已经匹配到的字符,例如: [In]: import re pat=',\d+,' #表示一个或以上整数前后都有一个逗号 text='1,2,3,4,5,6,7,' [In]: result=re.finda 阅读全文
posted @ 2020-09-08 17:39 morein2008 阅读(1045) 评论(0) 推荐(0)
摘要:自定义计算函数运行耗时的函数 import time import functools def running_time(func): @functools.wraps(func) def wrapper(*args,**kwargs): start=time.time() result=func( 阅读全文
posted @ 2020-04-23 13:29 morein2008
摘要:卷积层Conv的输入:高为h、宽为w,卷积核的长宽均为kernel,填充为pad,步长为Stride(长宽可不同,分别计算即可),则卷积层的输出维度为: 其中上开下闭开中括号表示向下取整。 MaxPooling层的过滤器长宽设为kernel*kernel,则池化层的输出维度也适用于上述公司计算。 具 阅读全文
posted @ 2020-03-11 19:50 morein2008
摘要:BaseException # 所有异常的基类 +-- SystemExit # 解释器请求退出 +-- KeyboardInterrupt # 用户中断执行(通常是输入^C) +-- GeneratorExit # 生成器(generator)发生异常来通知退出 +-- Exception # 常 阅读全文
posted @ 2020-03-06 19:08 morein2008
摘要:《动手学深度学习》在线文档,numpy版本:https://zh.d2l.ai/chapter_preface/preface.html 阅读全文
posted @ 2020-01-08 10:30 morein2008
摘要:Python有自带的logging模块,用于日志记录,功能很强大,但不好用,使用挺麻烦的,而且发现了几个bug,调用了一个logger.warning()一次,结果日志文件中出现了n行记录,且逐渐变成n+1,n+2,...越来越多。也不想去查原因,索性自己写一个日志功能。 我想要的日志的核心功能就只 阅读全文
posted @ 2019-12-31 19:21 morein2008
摘要:最近我在用Macbook Pro练习PyTorch的时候,发现明明在终端已经用pip安装了PyTorch,但在pycharm运行时总是报错:No module named torch. 但是我把同样的代码用Spyder跑就没有问题,感动很费解,找了很多资料,终于弄明白了。原来Pycharm、Spyd 阅读全文
posted @ 2019-10-12 16:27 morein2008