【例】断点回归设计RDD
https://mp.weixin.qq.com/s/LhXnZFkMOcAC9xSd-OZfTA
关于下方文字内容,作者:马林,东北财经大会计学院
Hoekstra,Mark,2009. The effect of attending the flagship state university on earnings: A discontinuity-based approach,The Review of Economics and Statistics
This paper examines the effect of attending the flagship state university on the earnings of 28 to 33 year olds by combining confidential admissions records from a large state university with earnings data collected through the state's unemployment insurance program. To distinguish the effect of attending the flagship state university from the effects of confounding factors correlated with the university's admission decision or the applicant's enrollment decision, I exploit a large discontinuity in the probability of enrollment at the admission cutoff. The results indicate that attending the most selective state university causes earnings to be approximately 20% higher for white men.
本文结合明星州立大学(应该大学的要求,作者答应不披露学校名称,以下统称明星州立大学)新生录取数据和州失业保险计划统计的收入数据,检验了就读明星州立大学对28-33岁年龄段白人男性收入的影响。为了剔除与大学录取决策和申请者报名决策相关的混淆变量,得到就读明星州立大学的处置效应,本文利用录取分数线附近录取率显著的不连续性进行模糊断点回归。结果表明,就读明星州立大学为白人男性带来了大约20%的额外收入。
I. Introduction
估计教育的经济回报是劳动经济学和教育经济学的基本问题,尽管有相当数量的教育参与对于收入影响的研究,但我们关于大学质量对于收入的影响知之甚少。Black and Smith (2004)指出该领域的经常出现的问题是假设入学筛选依赖于可观测的特征,显然就读于更具筛选性的大学(教育质量高)必然伴随着一些不可观测的特征(与X相关),而这些特征将会影响未来的收入,(对Y有影响)。要得到大学质量的经济回报可靠的估计结果,就需要克服选择偏差。选择性偏差来源于两个方面,一方面与学校的决策相关,一些学生的特质大学招生委能够观察,但是经济学家观测不到,另一方面来自于学生不可观测的特质,给定所有可观测到的学生或家庭特征和进大学招生规则,就读该大学的决定可能与未观察到的学生或家庭特征相关,这些未观察到的特征本身也会影响未来收入。为了克服该问题,现有的几篇文献致力于寻找更好的对照组,比如双胞胎的准实验,这些文献都发现了教育质量正的经济回报。与本文最密切的文献是Angrist and Lavy (1999),该文采用班级规模的外生变化作为工具变量研究教育质量对考试成绩的影响。而本文采用的是模糊断点回归的设计(模糊断点回归也可以从工具变量的角度的理解)。作者的方法是使用SAT分数是否超过录取标准这一局部的准自然实验,比较分数刚好超过录取断点和刚好低于录取断点的申请者未来经济收入的差异。具体而言,作者选择了某州明星州立大学作为实验场景,该学校在样本期间的SAT录取分数线在1000-1100分,比其后的五个分数线最高的州公立大学高65-90分,就读于明星州立大学在一定程度上就代表“教育质量高”,同时选择公立学校作为实验场景对于政策制定更具有启发意义。作者得到了该明星州立大学官方的学生入学申请数据,又将其与州失业保险计划记录的收入数据结合,使用断点回归估计大学质量的经济回报。结果表明,对于高中毕业10-15年后的白人男性,被该明星州立大学录取会获得大约20%额外经济收入。考虑到作者的数据不能够观测到28-33岁之间女性的工作时间,该校提高的数据调查对象为白人,作者才将研究对象聚焦于白人男性样本。
II. Data and Identifification Strategy
1、数据来源
数据来源于两个机构。一个是明星州立大学入学申请数据。在1986-1989年间,该学校能够获得每一个白人入学申请者的社保编号、性别、申请入学的学期和ACT分数(ACT成绩通过该大学公布的换算表换算成SAT成绩),作者还可以获得每一个学生的高中GPA,该GPA是明星州立大学依据特定课程范围和权重的重新计算得到的高中成绩。另一个则是州政府统计的个人收入的季度数据。由于学生的申请数据直接从大学招生办公室发送到州政府办公室,而该机构又接受雇主向其提交失业保险税报告,作者因而可以用社保编号将1998年到2005年第二个季度的收入记录数据与明星州立大学提供的数据相匹配,为了保持收入的可比性,所有的名义工资以2005年为标准使用CPI进行了调整。数据的独特性也决定了本文的研究特征。一方面是优势,首先是本文的个人收入数据统计的是曾经的大学的申请者10-15年后的收入,相比于20岁的早期和中期,也就是刚完成学业并开始寻找工作时的收入,28-33岁时的收入对于生命周期的收入更具有预测性;其次,相比于一般的调查数据,官方数据的测量误差较小;最后,除了少数特殊职业,失业保险的覆盖在该州是强制推广的。另一方面是劣势,一是如果个体离开该州,其个人收入的数据就无法被观测到,特别是考虑到迁移到他州可能是内生于被该明星州立大学录取,从而干扰本文的观测结果;二是无法观测到被该明星州立大学拒绝后的申请者最后到了哪里就读大学,也无法观测最终在州外就业的申请者;三是缺乏更多的变量进行机制检验,研究教育质量正的收入溢价是通过何种渠道实现的。针对数据的局限性,作者在下文补充了间接的证据。
2、收入的测量
首先作者计算了每一申请者样本统计期间每一年四个季度实际收入之和的自然对数;然后考为确保每个申请者在分析中只出现一次同时减少噪音,作者使用first-within-then-between (两阶段OLS)的估计方法。是年份固定效应的dummy向量,是收入观测年份距离高中毕业年份的时间差的dummy向量,是控制同期申请明星州立大学同群效应的dummy向量,回归得到的残差在每一个申请者中取平均值,用该平均残差收入值进行下文的估计。
3、断点设置
在研究的时间区间,该校的录取标准是一个SAT分数和高中GPA二维非线性滑动量表,给定GPA分数,学生的SAT分数达到相应的分数线就能被录取,同时GPA分数越高,SAT的要求标准就会降低。为了更容易观测大学录取概率的断点,本文将该校的二维量表转为为一维的录取标准。在给定高中GPA分数基础上,用申请者实际的SAT分数减去所需的SAT录取分数线,计算得到Adjusted SAT Score。比如,给定申请者GPA2.0,学校SAT录取标准为1300,该生的实际成绩为1350,那么Adjusted SAT Score为50。因此,在样本中所有0或者更高的Adjusted SAT Score表示学生预计会被明星州立大学录取。上述一般性的招生流程来自于招生委员会的回忆,该校并没有每年招生规则的具体记录,为此,作者使用录取数据来估计录取标准。首先,根据申请的学期(夏or秋)和给定分数线将样本划分为数个子样本,然后在每个子样本内进行如下的OLS估计。其中Acceptance=1,如果申请者被录取了;SAT_Cutoff=1,如果SAT分数高于某个给定的分数。作者在每个子样本内尝试每一个可能的SAT_Cutoff,估计结果中如果R2最高,那么该分数就是SAT_Cutoff。
4、模型设定
Outcome是模型(1)中的剩余平均收入,被解释变量已经分离开了年份、年龄、经验和同群效应,AdjustedSATScore是综合高中GPA和SAT分数综合而成的一维分数,该分数和录取线决定了申请者能否被录取。AboveAdmissionCutoff =1,如AdjustedSATScore≥0,h(AdjustedSATScore)是AdjustedSATScore的高阶项。β1是待估系数,由于在模型中录取概率的跳跃幅度小于1,β1需要被得到处置概率进行加权,即本文采用的模糊断点回归的方法。要想使用模糊断点回归识别出明星州立大学的录取对收入的影响,需要满足其他决定收入的因素在断点附近是连续的,从而使得断点附近的跳跃归因于录取与否。
该假设在申请者或者大学可以操纵录取断点的两种情况下会被扭曲。对于申请者来说,那些刚好低于录取断点的人可能会重复考试直到超过录取标准,但作者任务该情形在实际情况中不会发生,因为该校从未发布或披露录取的规则,并且录取规则每年都有变化,因此学生在申请之前无法确定自己的分数是否达到录取标准,作者检验了断点附近申请人数的分布,如图1所示,结果并不支持学生可以操纵他们相对于断点位置的证据。对于大学来说,作者解释大学不太可能规定一个录取点,使得一些的学生的某个不可观测的变量刚好超过或者低于该录取点,据熟悉学校招生流程的解释,录取点的设定主要是为了达到目标的录取水平。Figure 1: The Distribution of Applicants Near the Admission Cutoff
5、录取率在断点有无跳跃
在估计明星州立大学录取的经济回报之前需要检验断点的有效性,即cutoff point附近录取率有无明显的跳跃。如图2所示,断点附近录取率提升的幅度为38.8%,该结果的t值为10.57 ,可见刚好超过录取标准入学的概率会有一个大的显著提升。在图中,纵坐标是明星州立大学的录取率,横坐标是给定申请者高中GPA下实际SAT与SAT录取分数线的相对距离,空心圆圈是申请者中录取者的比例,实线是AdjustedSATScore基于高次项的非线性拟合线。Figure 2. Fraction Enrolled at the Flagship State University
Ⅲ.实证结果
1、Earnings Discontinuities at the Admission Cutoff
如表1所示,从第一行到第五行变更高次项项数、带宽和控制变量,估计的收入的跳跃幅度显著为正,在7.4%到11.1%不等,其中第一行的回归结果在图3中进一步有展示。总体来看,估计系数在加入更高次项和Flexible polynomial时系数更大;加入实际的SAT分数和高中GPA作为控制变量后,系数也保持一致;为了剔除离群值带来的偏差,在第一行回归的基础上,使用中位数回归拟合,断点处估计效果为10.0%。由于达到录取分数线不代表100%入学,录取标准处应该作模糊断点处理。,根据处理概率的类型不同,作者分别根据admission(大学作出录取的决定) and enrollment (学生作出入学的选择)对精确断点回归的处置效应进行加权具体实施上是采用二阶段的方法进行模糊断点估计,即分组变量是否大于断点作为外生变量,第一阶段的结果显示F值大于300,即大于录取分数线与录取结果高度正相关。第二阶段的结果在表的第7列和第8列展示,可以看到Intent-to-Treat Effect(Admission Effect)在11%到17%上显著,和Enrollment Effect至少在18.1%上显著。Table 1. Earnings Discontinuities and Corresponding Intent-To-Treat and Enrollent Estimates for White Men
Notes: Bootstrapped standard errors are in parentheses; p-values are given in brackets. Additional controls include (residual) SAT score and (residual) high school GPA. “Flexible polynomial” indicates whether the estimated coeffificients of the adjusted SAT score polynomial were allowed to differ on each side of the admission cutoff. *, , and *: statistical signifificance at the 10%, 5%, and 1% levels, respectively. Intent-to-treat and enrollment effects are estimated using two-stage least squares.Figure 3.Natural Log of Annual Earnings for White Men Ten to Fifteen Years After High School Graduation (Fit with a Cubic Polynomial of Adjusted SAT Score)
Ⅳ.Interpretation
1、对处置效应的解读
本文给出的估计是模糊断点回归下得到的局部平均处置效果,对结果的理解要注意以下几个方面。首先,本文在断点处估计的处置概率小于1,这是多方面原因造成的:(1)该州有几所高中的成绩能够以低于平均水平被录取;(2)招生政策中的例外原则;(3)作者在估计招生规则的过程中可能存在偏误,特别是考虑到该校为了达到一定招生水平,经常会略微调整规则;(4)该校招生系统中决策制定和回报过程中可能存在一定的偏误,(5)被拒绝的申请者还可以发起“appeals process ”,但该程序只影响到极少数学生。其次,结果只具有内部有效性。本文的结果应该只适用于在录取分数线边缘的申请者,他们能否入学取决于分数是否达到录取标准。如图2所示录取标准对相当比例的申请者来说是一个决定性的因素,但显然并不是每一个人的入学决策都完全决定于录取分数标准。
2、对照组是否接受大学教育的间接估计
本文的数据无法直接观测到没有入学的学生之后就读于何所大学,为此作者补充了如下证据来观察对照组的特征。首先,申请者除了明星州立大学还有别的大学可以选择,具体而言,在该州还有其他7所州立大学,而他们收取的学费不到明星州立大学的3%。其次,作者检验了申请者高中毕业后的全职劳动参与,间接说明未就读于明星州立大学的申请者选择了其他大学。具体来说,作者选取1992 -1995年的申请者,给定SAT和GPA分数,检验被明星州立大学录取对他们在高中毕业的四年间年收入超过20000$的可能性。结果如表2所示,从第1-4年,样本中超过20000$的比列从0.3%提高到5.4%,无论是admission effect还是 enrollment effect都与申请者年收入超过20000$概率负相关,这些都暗示申请者基本都接受了大学教育。Table 2. Earnings of Male Applicants in the Four Year Following High School and the Effect of Admission and enrollment at the Flagship on Earning More than $20000 Annually during College Years
3、可能的机制
相比于每多学习一年能够获得9%的额外收入(Ashenfelter & Rouse, 1998),本文发现对于成年白人来说,就读明星州立大学能够带来约20%的额外收入,就读于明星州立大学是如何形成如此丰厚的超额收入值得探究。首先需要排除人口流动对回归结果的干扰,特别是人口流动的选择可能内生于本文的处置变量。作者根据national 1998 Residence and Migration Survey,超过85%的受访大学生在家乡所在州接受了大学教育,实证结果不支持明星州立大学的录取者10-15年后更不可能在本州就业(results available on request)。作者在很大程度上排除了被拒者就读于外州的大学,和就读于明星州立大学偏向于在本州就业,两种样本自选择对主回归结果的影响。为此作者认为就读明星州立大学带来的额外收入来自于人力资本积累和信号效应(signaling)的增加。针对人力资本积累渠道,作者比较了明星州立大学和他州立大学在每个学生上的平均支出,作者发现明星州立大学比其他5个最好的州立大学每个学生支出平均高出了6%,作者推断就读明星州立大学的20%额外收入不太可能来自于相对差异较小的人力资本积累差异。针对信号效应,作者认为很难将其与人力资本渠道分开,从表3可知,就读于明星州立大学的学生SAT分数比其他州立大学的分数更高,该结果可以解释信号效应(成绩好),也可以说明明星州立大学的学生人力资本积累水平更高(人聪明)Table 3. Selectivity and Education Inputs of The in-State Public University
断点回归设计RDD的文章1.断点回归设计RDD分类与操作案例,2.RDD断点回归, Stata程序百科全书式的宝典,3.断点回归设计的前沿研究现状, RDD,4.断点回归设计什么鬼?且听哈佛客解析,5.断点回归和读者的提问解答,6.断点回归设计RDD全面讲解, 教育领域用者众多,7.没有工具变量、断点和随机冲击,也可以推断归因,8.找不到IV, RD和DID该怎么办? 这有一种备选方法,9.2卷RDD断点回归使用手册, 含Stata和R软件操作流程,10.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,11.安神+克拉克奖得主的RDD论文, 断点回归设计,12.伊斯兰政府到底对妇女友不友好?RDD经典文献,13.PSM,RDD,Heckman,Panel模型的操作程序,14.RDD经典文献, RDD模型有效性稳健性检验,15.2019年发表在JDE上的有趣文章, 计量方法最新趋势,16.关于(模糊)断点回归设计的100篇精选Articles专辑!17.断点回归设计RDD精辟解释, 保证你一辈子都忘不了,18.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!19.中国博导要求掌握的RDD方法实证运用范文(配程序code), 不然就不要用RDD做实证研究!20.最近70篇关于中国环境生态的经济学papers合辑!21.事件研究法用于DID的经典文献"环境规制"论文数据和程序,22.环境, 能源和资源经济学手册推荐, 经典著作需要反复咀嚼,23.中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少需要收藏一下!
关于一些计量方法的合辑,各位学者可以参看如下文章:①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验