Pandas 对数值进行分箱操作的4种方法总结对比

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。

我们创建以下合成数据用于演示

  1. import pandas as pd # version 1.3.5
  2. import numpy as np
  3. def create_df():
  4. df = pd.DataFrame({'score': np.random.randint(0,101,1000)})
  5. return df
  6. create_df()
  7. df.head()

数据包括 1000 名学生的 0 到 100 分的考试分数。而这次的任务是将数字分数分为值“A”、“B”和“C”的等级,其中“A”是最好的,“C”是最差的。

1、between & loc

 

完整文章:

https://avoid.overfit.cn/post/dc11c84491e841dea928d652f0f93005

posted @ 2022-05-03 10:52  deephub  阅读(139)  评论(0编辑  收藏  举报