斯坦福【概率与统计】课程笔记(〇):前言
这个系列的随笔,起源于工作中遇到的问题:拿到一份试验数据后,该如何分析其内容并得到有价值的结论?
一般说来,某个产品在上线之前,都会在小范围内做实验,看看用户对产品新功能/新样式的反映如何,实验的结论会产出很多体现用户反映的各种维度、各种指标的数据,而且量级都比较大(可能几万个甚至十几万个值)。那么问题来了:给你这样一份数据,你能从中挖掘出什么有用的信息,来说明这个实验的结果是好是坏?好在哪里、坏在哪里?如果是坏的,那么如何改进?
我发现项目组中的很多博士同学尤其是数学博士,对待这种问题有一套比较成熟的方法,比如他们会画出各种图表来证明数据是否对称、有偏、某两个特征的相关性、某个特征的权重等。
但我一直对这类问题没有熟练掌握解决方法,究其原因,主要还是不懂得如何统计分析,大学学过的《概率论与数理统计》那一套基本还给老师了——即便还记得一些,也和当前遇到的问题对不上号,不懂得怎么使用。
当然,在从前使用统计机器学习模型的时候,特征都是自己选取的,也会用到一些特征度量方法,但仅限于简单的看看特征分布(哪个值出现的多、哪个值和结果相关、值的范围是不是归一化的等等),还是没有掌握一个整体的方法论。
偶然在一个公众号下看到了这个斯坦福系列课程,感觉应该会对自己上面的困惑有帮助,所以决定抽时间系统地学习、总结一下。
安利课程链接:https://online.stanford.edu/courses/gse-yprobstat-probability-and-statistics
希望最终能达到这个系列学习的目的。2个月之后见