pd_api

"""python
map:
作用于Series或Dataframe的一列
apply:
可以作用于行向量
applymap:
方程作用于DataFrame中的每一个元素，可以使用applymap()
"""

这个只会返回组信息

data['ImageId_ClassId'] = data['ImageId_ClassId'].str.extract(".*.jpg.(\d)")

data.loc[data['EncodedPixels'].str.contains("00cdb56a0")]

分组大系列:

dj = data.groupby('ImageId_ClassId')['EncodedPixels'].sum()

data = pd.DataFrame({'price': np.random.randn(1000),
'amount': 100 * np.random.randn(1000)})

等分价格为10个区间

quartiles = pd.cut(data.price, 10)

定义聚合函数

def get_stats(group):
return {'amount': group.sum()}

分组统计

grouped = data.amount.groupby(quartiles)
price_bucket_amount = grouped.apply(get_stats).unstack()

pandas 透视表 pd.pivot_table

index:哪些列作为索引;values:哪些列保留;aggfunc:聚合函数，也可以是字典

table=pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum)

table.query('Manager == ["Debra Henley"]')

index是重塑的新表的索引名称是什么columns是列名称是什么;values就是生成新列的值应该是多少;就是更改索引列等等

pd.pivot(index=,columns=,values=,)

df["Order_Total"] = df.groupby('order')["ext price"].transform('sum')

df.resample(f'{interval}min').count() # 按每interval分钟统计数量

区间统计
fanwei = list(range(0, 500, 30))
fenzu: pd.Series = pd.cut(da.loc[:, 1], fanwei, right=True) # 关键是cut
pinshu = fenzu.value_counts()

posted @ 2022-06-18 17:07 HiIcy 阅读(51) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· pytorch反向接口暴露

· shell常用操作

· Python_DataFrame-的apply方法的应用示例_pandas

· pandas 常用操作记录

· pandas-自定义函数映射

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识？

公告

昵称： HiIcy
园龄： 7年4个月
粉丝： 0
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

文章档案

阅读排行榜

评论排行榜

1. take_photo(1)

HiIcy