随笔分类 - 量化投资与数据分析
摘要:继上一篇文章Pandas数据处理——盘点那些常用的函数(上),这篇文章整理了剩下的一些Pandas常见方法,整体难度会比上一篇文章中的大一点,但还是比较容易理解的。话不多说,直接进入正题。 用于演示的数据如下: In [11]: data Out[11]: company gender salary
阅读全文
摘要:在之前的文章中,以图文的方式详细讲解了Pandas中groupby,merge以及map、apply、applymap的原理,掌握好这些原理,再在这个基础上进行一些拓展,基本就可以解决绝大部分比较复杂的数据处理操作了。几篇文章如下,想回看的小伙伴可以再重温一下: Pandas数据处理三板斧——map
阅读全文
摘要:为了方便维护,一般公司的数据在数据库内都是分表存储的,比如用一个表存储所有用户的基本信息,一个表存储用户的消费情况。所以,在日常的数据处理中,经常需要将两张表拼接起来使用,这样的操作对应到SQL中是join,在Pandas中则是用merge来实现。这篇文章就讲一下merge的主要原理。 上面的引入部
阅读全文
摘要:在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式,为大家详细介绍一下这三个方法的实现原理,相信读完本文后,不论是小白还是Pandas的进
阅读全文
摘要:在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。在Pandas中,上述的数据处理操作主要运用groupby完成
阅读全文
摘要:整理了100个Pandas常用的函数,分别分为6类:统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。 统计汇总函数 函数 含义 min() 计算最小值 max() 计算最大值 sum() 求和 mean() 计算平均值 count() 计数(统计非缺失元素的个数)
阅读全文
摘要:补充一篇文章:https://www.zhihu.com/question/20254932/answer/459073864 我们为什么要假设检验 我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,这时就需要从总体中抽出一部分样本,用样本来估计总体情况。 举一个简单
阅读全文