生于数据的时代——记公开课数据分析的极限
博客中的文章均为meelo原创,请务必以链接形式注明本文地址
公开课:数据分析的极限
The Analytics Edge
https://www.edx.org/course/analytics-edge-mitx-15-071x-2
The Analytics Edge的中文名称应该叫做《数据分析的极限》,来自麻省理工学院(MIT)。这门课最大的特点就是通过各种实际应用,介绍经典的机器学习和优化的方法,使用的是统计学专用的语言R。机器学习中,监督学习的算法介绍了线性回归、逻辑回归、决策树与随机森林,非监督学习的算法介绍了分级聚类和K均值聚类;优化的方法介绍了线性优化和整数优化。
课程中很少有数学公式,几乎没有介绍各种方法的原理。如果丝毫不了解机器学习的话可以有点难以接受,适合对机器学习有一定了解的人学习。即便我已经熟悉机器学习,我还是被课程中介绍的各种应用惊叹道,原来如此简单的算法可以有如此丰富多彩的应用。
这门课的作业可以叫做非常多,每一周有三个应用的作业,就是使用R建立模型然后进行预测和分析,一个作业一不小心就要花1个小时。做完三个作业就会被数据中的各种变量搞晕了。
还有一个非常精彩的地方是,在课程上到一半的时候会在Kaggle上组织一场竞赛,竞争可谓非常激烈啊,相差零点几的分数就会差好几百人。最后实在不想为了那么一丁点提升而绞尽脑汁,在2000余人中,最终排名500多,由于是第一次我自认为还是不错了。
下面是课程中每一章所涉及的应用: