根据订单价格分组进行拆分

今天接到了个需求需要将excel表内的订单按照价格分为多个子表, 尽可能地让每个子表的金额总计接近

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

df['price'] = df['price'].astype('int64')
df.sort_values(by='price', inplace=True)
# 分箱
#df['cate'] = pd.cut(df.price, bins=5, labels=['A','B','C','D','E'])
# 按照价格来分箱
df['cate'] = pd.cut(df.price, [0,200,600,900,3000,9999], labels=['A','B','C','D','E'])
# 对组内生成序号(组内排序rank)
df['rank'] = df['price'].groupby(df['cate']).rank(method='first',ascending=True)
# 按照组内排序, 再次升序排序
df.sort_values(by='rank', inplace=True)
# 根据拆分数量 进行拆分
sepa = 5
# 生成拆分标识
#df['separate'] = pd.cut(df.price, , labels=['A','B','C','D','E'])
# 填充df 长度 的 拆分数标识列表
#df['separate'] = df.apply(lambda x: for i in )
df['separate'] = (math.ceil(df.shape[0]/sepa)*list(range(5)))[:-1]
df

　基本逻辑是按照价格进行排序，在分箱, 对每个分箱后的数据进行编号，对编号排序就会将分箱的数据依次排列, 最后按照需要拆分的子表数量进行拆分

遗留问题: 当表内价格分布差异较大时，往往拆分结果不理想嗯还需优化...

posted @ 2023-07-14 21:36 dontbealarmedimwithy 阅读(76) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· binary_search 二分查找

· diskpart 格式化u盘

· 按比例拆分（Power Query）

· 分库分表系列: 到底该怎么拆分？

· mysql必知必会（八）：过滤分组

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： dontbealarmedimwithy
园龄： 4年1个月
粉丝： 0
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

AI FOR CODE 大赛