04 2022 档案
摘要:一、%who魔法函数 在 Jupyter Notebook 中使用魔法函数,可以查看当前运行环境中所有自定义的全局变量名,包括:变量、自定义函数、引进的模块等。 % who # NamespaceMagics accuracy_score auc blk 还可以通过指定类别进行筛选。 %who Da
阅读全文
摘要:一、背景 机器学习中针对分类特征常常需要进行编码处理,将文本类型的数据转换为数值类型。 例如:将男女转换为0/1标签,以便模型训练。 二、测试 1.构建测试数据集 import pandas as pd import numpy as np df = pd.DataFrame({ 'Sex': ['
阅读全文
摘要:一、介绍 自然排序顺序(Natural sort order)不同于默认排序,针对字符串逐个比较对应位置字符的 ASCII 码方式,更关注字符串实际相对大小意义的排序。 **例如:**需要根据年增长率(50%)对数据列进行排序,此时无法直接排序。 可以借助第三方库(natsort)进行排序。 二、n
阅读全文
摘要:一、介绍 Pandas 的基础结构分为两种: 数据框 DataFrame 序列 Series 数据框(DataFame)是拥有轴标签的二维链表,类似于 Excel 中的行列关系。 列标签为列名,行标签为索引。 iterrows() 是在数据框中的行进行迭代的一个生成器,返回每行的索引以及一个包含行本
阅读全文
摘要:一、背景 近期想对比两个不同数据集的数据分布时,遇到一个问题:数据集同时包括离散、连续、时间等不同类型特征。 使用 seaborn.kdeplot 报错,仅只能针对数值型特征进行统计。 遂诞生一个需求:针对数据框,筛选指定数据类型的列。 二、select_dtypes介绍 使用语法为: data.s
阅读全文
摘要:一、安装 数据挖掘比赛最常用预测、分类模型:LGB、XGB、CatBoost、NGB、ANN等。 1.lightgbm 微软开源的 lightgbm 越来越流行。 目前比赛数据量越来越大,想要获得一个比较好的预测精度,同时又要减少内存占用以及提升训练速度,lightgbm 是一个不错的选择,其可达到
阅读全文