pd_api
"""python
map:
作用于Series或Dataframe的一列
apply:
可以作用于行向量
applymap:
方程作用于DataFrame中的每一个元素,可以使用applymap()
"""
这个只会返回组信息
data['ImageId_ClassId'] = data['ImageId_ClassId'].str.extract(".*.jpg.(\d)")
data.loc[data['EncodedPixels'].str.contains("00cdb56a0")]
分组大系列:
dj = data.groupby('ImageId_ClassId')['EncodedPixels'].sum()
data = pd.DataFrame({'price': np.random.randn(1000),
'amount': 100 * np.random.randn(1000)})
等分价格为10个区间
quartiles = pd.cut(data.price, 10)
定义聚合函数
def get_stats(group):
return {'amount': group.sum()}
分组统计
grouped = data.amount.groupby(quartiles)
price_bucket_amount = grouped.apply(get_stats).unstack()
pandas 透视表 pd.pivot_table
index:哪些列作为索引;values:哪些列保留;aggfunc:聚合函数,也可以是字典
table=pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum)
table.query('Manager == ["Debra Henley"]')
index是重塑的新表的索引名称是什么columns是列名称是什么;values就是生成新列的值应该是多少;就是更改索引列等等
pd.pivot(index=,columns=,values=,)
df["Order_Total"] = df.groupby('order')["ext price"].transform('sum')
df.resample(f'{interval}min').count() # 按每interval分钟统计数量
区间统计
fanwei = list(range(0, 500, 30))
fenzu: pd.Series = pd.cut(da.loc[:, 1], fanwei, right=True) # 关键是cut
pinshu = fenzu.value_counts()
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?