欢迎来到RankFan的Blogs

扩大
缩小

机器学习与因果推断


最近读了洪永淼教授和汪寿阳教授的论文--《大数据、机器学习与统计学:挑战与机遇》


经济学中比较重要的是两个随机变量之间的因果关系,数据基本又三种类型:时间序列数据、截面数据和面板数据,一般数据量都不会很大,在经典线性模型中,一般假定模型是线性回归模型,是参数模型中的一种。

随着数字经济时代的来临,产生了越来越多的数据,这些海量的数据背后透露着经济行为背后的规律,大数据是否可以仍然用传统的经济学研究方法?在洪老师的文章中给出了回答。

主要结论:

  • 大数据并没有改变统计学通过随机抽样推断总体分布特征的基本思想。
  • 大数据提供了很多传统数据中所没有的信息,大大扩展了统计学的研究边界,例如对于经济不确定性指数、舆情分析等。
  • 由于海量数据,大数据预计将改变基于统计学显著性来选择模型的习惯,研究范式将参数估计不确定性转换为模型选择不确定性,这同时也对统计推断中的数据生成过程的平稳性和同质性以及统计模型唯一性的假设提出了新的挑战。
  • 机器学习和统计推断有很多共同之处,机器学习也存在同时也特别重视样本偏差问题。
  • 机器学习不完全等同学统计学中的非参数研究方法。
  • 机器学习与统计学的有机结合可以提供一些新的研究方向,包括变量降维、因果识别等方向

大数据的形式种类繁多,可以分为结构化数据和非结构化数据。对于结构化数据,比较常见的是图片的像素矩阵,对于非结构化数据,生活中的人际关系网就是其中一个例子,属于比较火的图神经网络范畴。这些数据是否可以用到经济研究范式中那?

什么是统计推断的的基本思想?假设所研究的系统服从某一概率法则的随机过程,现实世界中的观测数据是依据这一概率法则产生的,这个随机过程称之为数据生成过程(DGP)。我觉得与机器学习中的生成模型有些相似,这里的DGP是True Model,一般这个模型我们是无法知道的,只能通过样本的数据去估计总体的规律,基于这个思想,我们引入许多标准衡量模型的好坏。

在常用的标准统计模型中,包括经典线性回归、Probit模型、久期分析等模型,这些模型直接或者间接地用到了至少一下6个假设:

  1. 随机性,DGP是一个随机过程。
  2. 模型唯一性,DGP的概率法则由唯一的数学概率法则确定。
  3. 模型正确设定,概率模型设定是正确的,即存在唯一的未知参数值,使得概率模型与DGP概率法则相吻合。
  4. 抽样推断总体,使用包含DGP信息的样本数据来推断总体分布特征,特别是概率法则。
  5. 代表性样本,描述观测数据的随机样本不存在样本选择偏差,而观测数据的样本容量通常不会太大。
  6. 统计显著性,基于统计推断,在预设显著性水平(5%)上判断解释变量或者预测变量是否显著,并据此提供解释依据。

机器学习又是什么那?从本质上说机器学习是数学优化问题和算法优化问题。简单来说机器学习是一种大数据分析方法,通过学习训练数据的系统特征和统计关系而对未知的样本进行预测,但机器学习不假设DGP的结构和概率分布满足特定的函数形式,通常是是给定目标函数,可以不给定参数方程的形式,然后不断训练学习参数,让Loss Fuction达到最小,这种事我们所说的非参数模型,比如 随机森林,KNN,决策树等模型。

大数据分析主要是做什么的?大数据分析的主要目的是从传统数据中发现不易察觉的模式、趋势、异常、因果关系等有价值的信息。基于大数据建模,得到的往往是依靠相关性,经济学比较重视变量之间的因果关系。大数据虽然不能直接解释因果关系,但其可以通过准确估计虚拟事实来测度因果关系。

大数据虽然逐渐在改变基于统计显著性的统计建模和统计推断的基本方法,但大数据并没有改变听过随机推断总体特征的统计思想。抽样推断,充分性原则,因果推断、样本外预测等基本统计思想在大数据分析中仍然基本适用。


待续!

posted on 2021-10-03 10:25  RankFan  阅读(533)  评论(0编辑  收藏  举报

导航