2022年1月3日
摘要: 课上练习:淘宝数据分,求各个位置成交额最多的商家 df[['位置','成交额','卖家']].groupby(['位置']).apply(lambda x:x.nlargest(3,"成交额")) groupby和apply的联用原理 Hadley Wickham(许多热门R语言包的作者)创造了一个 阅读全文
posted @ 2022-01-03 18:32 进击的许盈盈 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 数据df: input:df.pivot('类别','产地','数量')output:ValueError: Index contains duplicate entries, cannot reshape 查了官方文档发现原因是:两个columns不能有行重复 >>> df foo bar baz 阅读全文
posted @ 2022-01-03 17:34 进击的许盈盈 阅读(295) 评论(0) 推荐(0) 编辑
摘要: unique,top和freq似乎是对字符串统计,对数值无计算 其中top有mode作用freq也指的是众数的频数,当分类数量都为1时,按unicode排序 缺失值由NaN补上,如果为NaN,说明此列的信息不可以用这个统计变量进行统计的。 注意,数值列和字母列是不一样的。 例子出自官方文档里:pan 阅读全文
posted @ 2022-01-03 13:48 进击的许盈盈 阅读(1761) 评论(0) 推荐(0) 编辑
摘要: 官方文档里的例子Examples >>> df = pd.DataFrame([('bird', 2, 2), ... ('mammal', 4, np.nan), ... ('arthropod', 8, 0), ... ('bird', 2, np.nan)], ... index=('falc 阅读全文
posted @ 2022-01-03 09:33 进击的许盈盈 阅读(1034) 评论(0) 推荐(0) 编辑