统计vs机器学习,数据领域的“少林和武当”
和武侠世界里有少林和武当两大门派一样,数据科学领域也有两个不同的学派:以统计分析为基础的统计学派,以及以机器学习为基础的人工智能派。
虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。注重模型预测效果的人工智能派认为统计学派“固步自封”,研究和使用的模型都只是一些线性模型,太过简单,根本无法处理复杂的现实数据。
而注重假设和模型解释的统计学派则认为人工智能派搭建的模型缺乏理论依据、无法解释,很难帮助我们通过模型去理解数据。
这一纷争由来已久,很多研究者都对两种研究方法的差异做过论述,最著名的一篇论文Statistical Modeling: The Two Cultures 来自random forrest的发明人Leo Breiman。
这篇文章发表于2001年,指出了当时出现在统计学中的另外一种文化,以及代表这种文化的两种模型,随机森林和svm,并指出这两个模型颠覆了人们对于模型多样性,模型复杂性-预测准确率矛盾,和维度灾难的传统认知,认为我们应该拥抱新文化,新模型。
而本文将从数据科学的研究目标和挑战聊起,用几个简单的例子,对比数据科学圈这两大门派之争。
01 目标
数据科学是一门最近大火的新兴学科。这门学科的目标十分简单,就是如何从实际的生活中提取出数据,然后利用计算机的运算能力和模型算法从这些数据中找出一些有价值的内容,为商业决策提供支持。
传统的数据分析手段是所谓的商业智能(business intelligence)。这种方法通常将数据按不同的维度交叉分组,并在此基础上,利用统计方法分析每个组别里的信息。
比如商业智能中最常见的问题是:“过去3个月,通过搜索引擎进入网站并成功完成注册的新用户里,年龄分布情况如何?若将上面的用户群按年龄段分组,各组中有多大比例的用户在完成注册后,完成了至少一次消费?”
这样的分析是非常有用的,能揭示一些数据的直观信息。但这样的方法如同盲人摸象,只能告诉我们数据在某个局部的情况,而不能给出数据的全貌。而且对于某些问题,这样的结果显得有些不够用。比如用户注册之后完成消费的比例与哪些因素相关?又比如对于某个客户,他对某一产品的估计是多少?在这些场景下,我们就需要更加精细的数据分析工具—机器学习和统计模型。这些内容正是数据科学的核心内容。