根据订单价格分组进行拆分
今天接到了个需求 需要将excel表内的 订单 按照价格 分为多个子表, 尽可能地让每个子表的金额总计接近
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | df[ 'price' ] = df[ 'price' ].astype( 'int64' ) df.sort_values(by = 'price' , inplace = True ) # 分箱 #df['cate'] = pd.cut(df.price, bins=5, labels=['A','B','C','D','E']) # 按照价格来分箱 df[ 'cate' ] = pd.cut(df.price, [ 0 , 200 , 600 , 900 , 3000 , 9999 ], labels = [ 'A' , 'B' , 'C' , 'D' , 'E' ]) # 对组内生成序号(组内排序rank) df[ 'rank' ] = df[ 'price' ].groupby(df[ 'cate' ]).rank(method = 'first' ,ascending = True ) # 按照组内排序, 再次升序排序 df.sort_values(by = 'rank' , inplace = True ) # 根据拆分数量 进行拆分 sepa = 5 # 生成拆分标识 #df['separate'] = pd.cut(df.price, , labels=['A','B','C','D','E']) # 填充df 长度 的 拆分数标识列表 #df['separate'] = df.apply(lambda x: for i in ) df[ 'separate' ] = (math.ceil(df.shape[ 0 ] / sepa) * list ( range ( 5 )))[: - 1 ] df |
基本逻辑是 按照价格进行排序,在分箱, 对每个分箱后的数据 进行编号, 对编号排序 就会将分箱的数据依次排列, 最后按照需要拆分的子表数量进行拆分
遗留问题: 当表内价格分布差异较大时, 往往拆分结果不理想 嗯 还需优化...
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?