pd_api

"""python
map:
作用于Series或Dataframe的一列
apply:
可以作用于行向量
applymap:
方程作用于DataFrame中的每一个元素,可以使用applymap()
"""

这个只会返回组信息

data['ImageId_ClassId'] = data['ImageId_ClassId'].str.extract(".*.jpg.(\d)")

data.loc[data['EncodedPixels'].str.contains("00cdb56a0")]

分组大系列:

dj = data.groupby('ImageId_ClassId')['EncodedPixels'].sum()

data = pd.DataFrame({'price': np.random.randn(1000),
'amount': 100 * np.random.randn(1000)})

等分价格为10个区间

quartiles = pd.cut(data.price, 10)

定义聚合函数

def get_stats(group):
return {'amount': group.sum()}

分组统计

grouped = data.amount.groupby(quartiles)
price_bucket_amount = grouped.apply(get_stats).unstack()

pandas 透视表 pd.pivot_table

index:哪些列作为索引;values:哪些列保留;aggfunc:聚合函数,也可以是字典

table=pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum)

table.query('Manager == ["Debra Henley"]')

index是重塑的新表的索引名称是什么columns是列名称是什么;values就是生成新列的值应该是多少;就是更改索引列等等

pd.pivot(index=,columns=,values=,)

df["Order_Total"] = df.groupby('order')["ext price"].transform('sum')

df.resample(f'{interval}min').count() # 按每interval分钟统计数量

区间统计
fanwei = list(range(0, 500, 30))
fenzu: pd.Series = pd.cut(da.loc[:, 1], fanwei, right=True) # 关键是cut
pinshu = fenzu.value_counts()

posted @   HiIcy  阅读(51)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
点击右上角即可分享
微信分享提示