随笔分类 -  Python

摘要:通过以下脚本,可以将程序运行时间记录,并转换为时分秒的友好格式展示。 import time from time import strftime, gmtime # 获取开始时间 start_time = time.time() ## -- 执行脚本 -- time.sleep(5) # 获取结束时 阅读全文
posted @ 2022-03-13 23:45 Hider1214 阅读(1568) 评论(0) 推荐(0) 编辑
摘要:一、%占位符 1.说明 # 符号代表意义 %s -- 字符串 %10s -- 指定长度 左填充 %-10s -- 指定长度 右填充 %f -- 浮点数 %.2f -- 保留2位小数点 %d -- 整数 2.实操 a = 'Name' b = 'Hider' c = 100 d = 1.80 prin 阅读全文
posted @ 2022-02-03 21:12 Hider1214 阅读(1128) 评论(0) 推荐(0) 编辑
摘要:一、背景 给定一个维表,如下: 区域 编码范围 N0 1000-1935, 2000-2079, 2085-2107 GF 2250-2263 WG 2500-2507, 2515-2532 NC 2282-2310 BR 3350, 3353-3356 V2 2648, 2715, 2717-27 阅读全文
posted @ 2022-01-28 16:34 Hider1214 阅读(369) 评论(0) 推荐(0) 编辑
摘要:一、需求 现有一个维表,包含以下字段: 国家 货物类型 重量上限2 重量下限2 运费 挂号费 ''' 英国 普货类 0 2 61 16 英国 普货类 2 20 61 16 英国 内置电池 0 2 83 16 英国 内置电池 2 20 78 16 德国 普货类 0 0.4 63 18 德国 普货类 0 阅读全文
posted @ 2022-01-28 10:19 Hider1214 阅读(1129) 评论(0) 推荐(0) 编辑
摘要:总的来说,sort 是应用在列表上的方法,修改原始列表。 内建函数 sorted 可对所有可迭代的对象进行排序操作,返回新的对象。 list.sort() 方法效率会比 sorted(iter) 稍微高些。 一、sort函数 sort() 函数用于对原列表进行排序,如果指定参数,则依据指定的函数进行 阅读全文
posted @ 2022-01-17 23:35 Hider1214 阅读(262) 评论(0) 推荐(0) 编辑
摘要:一、背景 日常工作中,如果对数据精度不敏感,则可以使用 ceil、floor、round 等函数对数据做取整、四舍五入操作即可。 # 取整 import math x = 11.245 math.ceil(x) # 向上 12 math.floor(x) # 向下 11 round(x) # 四舍五 阅读全文
posted @ 2022-01-14 09:56 Hider1214 阅读(1287) 评论(0) 推荐(0) 编辑
摘要:一、介绍 pip 可以对 python 第三方库进行安装、更新、卸载等操作,十分方便。 全称为:package installer for python ,也就是 python 包管理工具。 python 各种各样功能的工具库被存放在一个统一的“仓库”里,名叫 PyPi (Python Packag 阅读全文
posted @ 2022-01-12 00:19 Hider1214 阅读(444) 评论(0) 推荐(0) 编辑
摘要:一、背景 接上所叙,在对比训练集、验证集、测试集之后,实战中需要对数据进行划分。 通常将原始数据按比例划分为:训练集、测试集。 可以利用 sklearn.model_selection.train_test_split 方法实现。 二、介绍 使用语法为: x_train, x_test, y_tra 阅读全文
posted @ 2022-01-10 16:50 Hider1214 阅读(1199) 评论(0) 推荐(0) 编辑
摘要:一、背景 实现一个数据要求往往有多种不同的方式,殊途同归,但终究速度上仍有一定的差异。 二、坏习惯 1.不要导入根目录 无论是内置模块,还是第三方模块,使用之前都必须导入。 如果我们只是需要其中某几个函数,单独导入即可。 ## 较慢 import math %%timeit math.sqrt(10 阅读全文
posted @ 2022-01-10 11:37 Hider1214 阅读(82) 评论(0) 推荐(0) 编辑
摘要:一、介绍 Python 中 input() 函数接受一个标准输入数据,返回为字符类型。 无论是 int、float、list 等,在输入的时候,都是以字符串存储。 使用语法: a = input([prompt]) # 提示信息 等待用户输入 二、实操 1.接受一个值 a = input('inpu 阅读全文
posted @ 2022-01-07 21:38 Hider1214 阅读(692) 评论(0) 推荐(0) 编辑
摘要:一、介绍 数据分析中经常需要进行“行列转化”。 pandas.melt() 函数可以实现将 “宽数据” → “长数据”的一种列转行变换。 类似于 Excel 中的透视表(pivot)和逆透视表的操作。 可选择地保留设置的标识符变量。 1. 使用语法 pandas.melt(frame, id_var 阅读全文
posted @ 2022-01-05 23:01 Hider1214 阅读(4145) 评论(0) 推荐(0) 编辑
摘要:一、介绍 Python 中利用 pd.value_counts() 函数对数据频次进行统计。 该函数返回一个序列 Series ,包含每个值的数量。 使用语法为: Series.value_counts(normalize=False, # 是否显示占比 sort=True, # 是否排序 asce 阅读全文
posted @ 2022-01-04 17:42 Hider1214 阅读(2480) 评论(0) 推荐(0) 编辑
摘要:一、理论介绍 虚拟变量(dummy variable)也叫哑变量,是一种将多分类变量转换为二分变量的一种形式。 如果多分类变量有k个类别,则可以转化为k-1个二分变量。 需要有一个参照的类别。 在非线性关系的模型中,特别重要。 在模型分析时,虚拟变量都是同进同出,要么都在模型中,要么都不在模型中,不 阅读全文
posted @ 2022-01-04 14:47 Hider1214 阅读(5959) 评论(0) 推荐(0) 编辑
摘要:一、背景知识 最近看微信公众号,发现很多有趣的图片,又不想一一保存,遂产生通过 python 爬虫的方式直接一次性解析保存。 在此过程中,使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库,算是综合使用了一下。 有所收获。 二、整体思路 分析网页源代码 阅读全文
posted @ 2022-01-03 23:55 Hider1214 阅读(930) 评论(0) 推荐(0) 编辑
摘要:一、背景 源其一个想法,在爬取微信公众号文章图片之后,过滤一些图标类文件。 二、实操 1.利用 PIL 包 Image 实现 from PIL import Image filename = r'C:\Users\Hider\Desktop\we\2.gif' img = Image.open(fi 阅读全文
posted @ 2022-01-03 01:23 Hider1214 阅读(1511) 评论(0) 推荐(0) 编辑
摘要:一、背景 利用 pd.sort_values 可以实现对数据框的排序。 DataFrame.sort_values(by, # 排序字段 axis=0, #行列 ascending=True, # 升序、降序 inplace=False, # 是否修改原始数据框 kind='quicksort', 阅读全文
posted @ 2022-01-02 23:27 Hider1214 阅读(2370) 评论(0) 推荐(1) 编辑
摘要:一、介绍 Pandas 数据框中的索引可以重复,因此切片取数时需注意。 二、实操 1.判断索引是否重复 Series 索引重复判断 import pandas as pd import numpy as np # 重复索引 是否唯一 s = pd.Series([1,2,3,4,5], index= 阅读全文
posted @ 2022-01-01 17:03 Hider1214 阅读(1883) 评论(0) 推荐(0) 编辑
摘要:一、介绍 pd.dropna() 函数主要用于删除缺失数据。 Series 返回一个仅包含非空数据和索引的 Series,默认丢弃含有缺失值的行 DataFrame 可以通过参数更详细的删除行数据 使用语法: DataFrame.dropna(axis=0, how='any', thresh=No 阅读全文
posted @ 2022-01-01 11:27 Hider1214 阅读(4912) 评论(0) 推荐(0) 编辑
摘要:一、背景介绍 数据分析师每天都跟数据打交道,可能领导今天提了个需求:要看广东省21个地市近1年来每月发展量的变化趋势,而数据之前的管理较为混乱,没有规整入库,都是存放为零散的 Excel 文件。 此时,利用 Python 进行文件合并不失为一种合适的办法。 二、实操 SHOW ME THE CODE 阅读全文
posted @ 2021-12-28 10:02 Hider1214 阅读(429) 评论(0) 推荐(0) 编辑
摘要:Pandas中数据框(DataFrame)如果有中文,to_csv保存csv文件会导致乱码。 可通过以下设置编码解决: df.to_csv(r'data.csv', index=False, encoding='utf-8-sig') 阅读全文
posted @ 2021-12-12 00:59 Hider1214 阅读(6246) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示