上一页 1 2 3 4 5 6 7 ··· 36 下一页
摘要: 最近有个需求:将大量的 PDF 文档转换为多张图片 PNG ,遂诞生此需求。 经过搜寻,发现以下方法。 一、pdf2image.convert_from_path 事实上,pdf2image 只是一个包装器,真正的转换工具是 poppler。 1.安装 pip install pd2image -i 阅读全文
posted @ 2022-12-04 23:44 Hider1214 阅读(3040) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 timedelta 类表示时间差,可以直接实例化,也可以由两个 datetime 类型的数据作差得到。 缘起于求两个时间差,并需要转换为特定的单位(天、小时、分钟等),遂产生此需求。 二、导入 导入具体模块为: from datetime import timedelta 参数为: # d 阅读全文
posted @ 2022-11-20 23:40 Hider1214 阅读(804) 评论(0) 推荐(0) 编辑
摘要: 在 Python 中使用 stack/unstack/melt/pivot_talbe 等函数进行聚合之后,计算得到的结果具有多层索引。 一般情况下可以通过额外指定 columns 或者通过 reset_index() 可重置。 一、举个例子 import pandas as pd import n 阅读全文
posted @ 2022-11-20 21:11 Hider1214 阅读(1438) 评论(0) 推荐(0) 编辑
摘要: 在 Python 中,利用 Pandas.describe() 可以很方便的观测某一列的数量、最小值、均值、最大值、分位数等。 pd.series.describe(percentiles=[0.05,0.25,0.3,0.7,0.8]) 具体可参考文章:Python学习笔记:描述性统计descri 阅读全文
posted @ 2022-11-20 00:01 Hider1214 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 一、说明 与其他 SQL 语法类似,Hive 中也支持 with as 将一大段 SQL 语句封装为子查询,方便后续多次调用。 MySQL旧版本不支持with as语法,8.0才支持。 with tt as ( select *, row_number() over(partition by id 阅读全文
posted @ 2022-11-19 21:35 Hider1214 阅读(1455) 评论(0) 推荐(0) 编辑
摘要: 工作中需要合并区号与号码,因两个字段均为数值,无法直接使用 “+” 进行拼接,需要通过其他方法。 一、concat拼接 concat 将多个字段(字段类型可不相同)拼接起来。 使用语法为: -- 语法 concat(string a, int b, float c) -- 拼接多个字段 select 阅读全文
posted @ 2022-11-19 21:14 Hider1214 阅读(3968) 评论(0) 推荐(0) 编辑
摘要: 日常工作中常遇到大文件,无法打开、无法编辑的情况。 一般在 Linux 下可通过 split -l -d -a file.txt 的命令直接进行分割为多个文件。 但有时在 Window 下也有同样的需求,遂产生如何分割的想法? 一、批处理:按每行分割 将以下脚本与待处理文件复制同一目录下,双击执行即 阅读全文
posted @ 2022-11-15 11:03 Hider1214 阅读(9413) 评论(0) 推荐(0) 编辑
摘要: 一、空值 isna Pands 中 NaN(Not-A-Number) 视为空值,利用函数 isna 和 notna 进行判断。 注意:不要利用是否等于None判断是否为空! import pandas as pd pd.NA == None # False pd.isna(pd.NA) # Tru 阅读全文
posted @ 2022-08-30 16:57 Hider1214 阅读(4681) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 add() 函数用于向调用者添加对象。 使用语法为: DataFrame.add(other, axis='columns', level=None, fill_value=None) 实际上等价于 dataframe + other 的直接使用相加语法。 区别在于支持使用 fill_va 阅读全文
posted @ 2022-08-30 15:35 Hider1214 阅读(1965) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。 1977年,美国著名数学家 John W. Tukey 首先在他的著作 《Explorat 阅读全文
posted @ 2022-08-30 13:04 Hider1214 阅读(8677) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 36 下一页
点击右上角即可分享
微信分享提示