行动 -- 如何根据原因进行决策?
1. 因果关系并不能直接作用于决策 -- 从一个失败的政策案例中看因果关系和正确决策之间的鸿沟
2008年,纽约市通过了一项法案,要求拥有15家以上分店的连锁餐厅必须在菜单上显著标出每种食物的热量值。这项法案背后的依据是,实用高热量食物会导致肥胖症和其他健康问题,如果人们知道他们所食用的事物包含多少热量的话,就会改变自己的行为。
然而,类似的政策在全国推广后,人们在纽约和其他城市展开了研究,但几乎没有发现能够表明这些法案其效果的证据。
为什么会这样呢?为什么依据某种因果推论实行的政策,在实际运行中却没有产生预期的结果呢?
这里问题的关键在于,如果人们不知道该如何使用这些热量数据,那菜单上标出的事物热量值可能就被顾客直接忽略掉了,那他们消耗的食物的热量值就不会产生预期的下降效果。要想让热量值信息改变人们的行为,我们必须假设消费者能够将这个信息融入日常的饮食之中,而且能够理解每一个数据的含义。
相反,关于引入停车灯符号体系(健康的食物用绿色图标,而不健康的食物用红色字体标出)的研究发现,有很多证据能够表明人们的行为会因为使用了停车灯体系而发生改变。这从侧面印证了政策的传导效果对预期结果出现的概率贡献。
另一方面,由于不同类型的餐厅提供的事物种类和面对的顾客群体不同,而不用的顾客对餐厅又有着不同的期待,所以研究中的任何效果都不可能适用于所有类型的餐厅。即使我们发现人们的购买行为发生了变化,我们也不能立即将这种变化归功于菜单上提供的食物热量信息。相反,这可能是由于餐厅因为该政策被迫改变了他们的菜单,减少了高热量食物的供应。也就是所谓的隐藏共同原因。
上面这个例子虽然比较简单粗糙,但是也基本表现出了基于因果推断进行政策实施的一些常见问题。
我们本文要重点讨论的问题就是:如何才能根据原因进行决策?
- 如何评估因果假设的可靠性:找到原因只是第一步,要想针对整个人群以及每个个体成功制定一些政策,我们还需要更多信息
- 基于一定程度的医学研究,我们知道跑步可以改善心血管健康状况,但并不一定跑步就可以100%带来健康,而没有任何副作用
- 仅知道钠元素在有些人身上可能会引发高血压,并不足以让我们决定是否应该在整个人群中实施一项限制食物中钠含量的政策
- 不是所有信息都是同等重要,我们到底需要什么样的信息来支持某个因果假设,以及有什么好的证据能够证明某个因果关系中含有这样的特征
- 我们还需要评估干预措施的效果,一个原因可能在一个地方有效,但在另一个地方没有任何效果
- 如何选择合适的因果假设作为决策依据:当我们决定采取行动时,无论是通过改变饭店的标志来改善顾客的健康状况,还是选择一种药来缓解头疼症状。我们需要在能够导致同一结果的很多方法(原因)中做出选择
- 如何在不完美的观察或实验前提下进行决策:因果结论的得出过程也许并不是完美无缺,在实际生活和工程实践中,我们需要在信息不完整也不完美的情况下采取行动。甚至在某些情况下,我们根本无法进行实验,在另一些情况下,我们可能没有时间或资源等到有了明确的结论再采取行动
- 如何评估干预措施的副作用:并不是所有的原因都能经得起干预措施的考验,而且干预措施让一个原因出现的同时可能还会改变其他一些事物(由政策带来的连锁反应)。我们需要考虑使用哪一个原因来引发某种结果,比如:
- 政府公布食物的热量值或者强制要求餐厅公布事物的热量值
- 餐厅更改了菜单,低热量值的甜味剂的消耗量增加了
- 具体实施某项政策的方法:我们需要考虑如何让某种结果出现(比如对公布食物热量值的饭店给予奖励,或者对不公布食物热量值的饭店予以处罚)
带着这些问题,我们接下来讨论如何对一个因果假设进行合理的评估,以便支持后续的决策环节。
2. 对因果假设的评估
0x1:为什么需要因果假设评估?因为现实世界往往很难进行完美的盲法试验
我们已经讨论过如何通过随机试验(RCT)去寻找事件发生的原因,但在很多情况下,我们都做不了这样的试验。这时,我们需要对其他证据进行评估,以此来确定某种关系是因果关系的可能性。
不仅如此,我们从理想完美的随机试验中了解到的信息与我们从现实世界的真实实验中了解到的信息也是不同的。真实的试验可能并非盲法试验,试验的样本可能会很小,而且在试验的过程中,很多参与者可能在试验还未结束时就已经退出了。
举一个例子来说,如果我们想知道坚持不懈地锻炼几十年会对人们的衰老过程产生怎样的影响,以此来指导我们制定当下的公共政策,那么一边是过去50年来对数万人的观察性研究病历数据,另一边是针对100名参与者进行的为期2年的RCT。
在大多数情况下,前者的知道效果可能更好,主要原因如下:
- 参与RCT实验的100人,可能和我们的研究目标的背景不一致(例如演技对象可能是猴子或者小白鼠),这会导致外部有效性问题,也就是因果假设的使用范围会存在挑战
- 相比于100个样本,数万人的病历数据,在概率层面更具有典型性
因此,尽管RCT常被当做衡量因果假设证据的黄金标准,但即使没有实验研究,我们依然可以掌握事件发生的原因。从数据分析的层面上看,我们需要知道的是如何去评估非实验性证据。
20实际60年代,Bradford Hill 提出了一组在评估因果假设时需要考虑的因素。这些因素在某种程度上可以被认为是验证因果关系的一组标准或者一个清单。虽然这些因素中的任何一个都不是必要,也不是充分条件,但在我们无法进行实验研究的时候,这个因素组合仍然可以为我们提供一些需要考虑的因素。
组合中的因素大致可以分为两种类型:
- 第一种类型的因素为我们指明某个原因对结果产生了影响,例如
- 强度
- 一致性
- 生物梯度
- 第二种类型的因素则为我们提供了证据,这些证据表明存在着某种可以让某个原因对结果产生上述影响的机制,例如
- 特异性
- 时间性
- 可信度
- 连贯性
- 实验
- 类比性
0x1:强度
如果在菜单上标出食物的热量值可以降低人们在点餐时选的食物的热量值,那么人们在标出食物热量值的餐厅里所点的事物的热量值,应该显著(概率意义上的显著)低于那些没有标出食物热量值的餐厅。
只有出现了概率意义上的显著变化,证据才能够更加有力地证明食物之间的因果联系。这与因果概率法的思想是一致的,因果概率法研究的就是在某个原因出现后,某种结果出现的概率提高的幅度。
这种方法还和因果衡量模型所讨论的因果关系强度方法有着密切的联系,强度可以指让一个事件发生的可能性更大,也可以指让某种影响的力度更大。
需要注意的是,事物之间的联系不强并不意味着它们之间就没有因果关系。因为有些原因可能会比较弱,比如:
- 吸二手烟导致肺癌的比例要比吸烟导致肺癌的比例小得多
- APT攻击的初期,攻击者在系统中留下的行为痕迹不是很多,因此这些零星的小概率进程行为和最终的系统入侵之间,可能不存在很强的联系
- 所有遵循某个节食计划的人,体重都有所下降,但他们减掉的重量只占原体重的很小一部分
另一方面,事物之间可能会出现很强的相关性,却不存在相应的因果关系。这方面的讨论可以参阅之前的文章。
当我们看到事物之间存在很强的相关性时,在进行决策之前,我们需要考虑以下几个问题:
- 这种关系是不对称的?为什么我们会认为其中一个事物是原因而另一个事物是结果呢?
- 这种相关性是否是这两个事物之间的一个共同原因导致的?
- 这种相关性是否是方法有问题?
- 范围限制
- 选择性偏差和失败
- 我们是否忽略了其他与结果密切相关的因素?
- 对于那些时间序列数据来说,这种相关性是否是两个事物都是非稳定变量导致的?
0x2:一致性(可重复性)
如果公布食物热量信息确实可以降低人们摄入的热量值,那么不同的研究人员通过不同的方法应该可以重复获得这一发现,而且这一发现应该在多家餐厅都适用。真正的因果关系不应该只能在一个试验中观察到,而应该在很多试验中都能观察到。
在重复试验的过程中,我们所引进的变量会很自然地导致我们对因果关系的强度得出更加肯定的结论,这其实也是大数定律的一种应用体现。
需要注意的是,在所有研究中都一致的发现也有可能是一个共同的缺陷或疏忽导致的。
例如在多次生物实验中,样本遭到了污染,导致观测到了错误的因果关系。
在评估某个关系的一致性时,我们需要考虑的问题包括:
- 我们是否准确复制了那些研究方法?
- 研究的目的是再现主要结果吗?
- 如果我们未能成功复制一项研究,这是否可能是研究群体或研究方法的显著变化造成的?
- 在不同的研究中,结果的大小是一致的吗?
- 这些研究都有足够的动力可以让我们发现某个原因导致的结果吗?
- 这些研究是彼此独立的吗?
0x3:特异性
如果有人说单独服用某一种药品能够治好癌症、普通感冒和疟疾,我们肯定会认为这种说法十分不可信。但是,我们却大概相信吸引会在不同程度上导致很多健康问题。
特异性指的不仅仅是一个原因导致的各种结果之间的差异,还包括这个原因对每一个结果的影响程度。这并不意味着一个原因只能导致一种结果,而是意味着与一个似乎对每种结果都会产生影响的原因相比,一个更加具体的关系可能会为我们提供更加强有力的证据。
比如说,
- 某种药物可能无法完全治愈很多不同的疾病,但它却可能对某一种疾病产生主要效果,而对其他疾病产生次要效果
- 骑行可能无法减少所有可能导致死亡的疾病风险,但是,骑行对健康的主要作用是可以减少肥胖症患者的数量以及心血管疾病导致的死亡事件,这种说法就更可信一些
从某种意义上来说,特异性还意味着我们推理出的关系到底有多直接,越具体的关系,可信度就越高。
在考虑特异性的过程中,我们还必须考虑事物之间联系的强度以及我们的先验知识:
- 这个原因会导致不同的结果吗?
- 它对各种结果的影响程度是一致的吗?
- 这个原因对结果的影响程度与我们预期的影响程度是否有差别?
0x4:时间性
事件发生的顺序也是寻找因果关系的一个重要线索。但有时我们并不知道哪个在前、哪个在后。
- 是一通电话改变了选民们的投票偏向?
- 还是因为针对选民的人口统计学数据分析预测到了这些选民的偏向,所以他们的名字才会出现在需要打电话游说的选民名单中?
理清事物发生的顺序是弄清因果关系真实方向的关键。
在随机试验中,干预措施和干预结果的顺序是清晰的,我们可以从观察性时间序列数据中发现这种顺序。
但实际工程实践中,很多研究使用的是一次性案例,这些研究在面对这个问题时可能会遇到一些麻烦。这些横断面研究就像是给研究群体拍了一个快照。但是,这样的研究只能告诉我们某一次出现了什么情况,我们无法准确得出其中的时间顺序。
尽管时间上的优先性意味着原因会在结果之前出现,但我们也必须考虑原因和结果之间隔了多长时间。我们是否会相信原因和结果之间会出现一个很长的时间间隔,这取决于我们已经掌握的信息。
- 在地球上,10公斤的铁球从100米高处丢下,经过4.52s落地
- 在月球上,10公斤的铁球从100米高处丢下,经过的时间会大于地球上的时间
从人的心理学层面上来说,当原因和结果之间的时间间隔很短时,参与者们认为存在某种因果关系的可能性更大。只有当参与者知道其中的底层作用机制需要更长的运行时间时,他们才会在原因和结果之间的间隔较长时也认为存在某种因果关系。换句话说,先验的类型层面知识,会影响我们对因果时间性的认知。
在分析因果关系中的时间性之前,我们必须考虑一些问题:
- 这些事件之间的表面顺序是正确的吗?
- 这是否是一个由数据收集方式或失误导致的人为结果?
- 考虑到原因的运行机制,这种时间间隔合理吗?
- 在假设的原因出现之后村子奥一个很长的时间间隔,那么这个结果有没有可能是其他因素的干预导致的?
- 导致结果的原因出现的时候,还有没有其他几乎在同一时间发生的事件?
0x5:生物梯度 - 因果关系中的剂量效应
是不是越多的原因就会导致越多的结果呢?这是 Mill 的共变法研究的问题。
一般来说,随着原因的剂量增加,它引起的反应也应该增加,这就是剂量效应。
- 随着工人们在被石棉污染的环境中待的时间越长、与石棉的接触越多,他们患上疾病的风险也应该越大
- 在 Snow 发现霍乱原因的案例中,随着伦敦居民距离污染水泵越远,患上霍乱的风险就越小
但是这里需要注意的一个问题是“J形曲线问题”,有一些生物梯度会呈现出J形的作用曲线,这本质上是一个非线性的相关关系。
总体来说,对于生物梯度,我们需要考虑的问题包括:
- 针对不同的原因值,结果的量(或出现的可能性)会发生怎样的改变?
- 如果我们能够控制一个人与原因的接触,这是否能够改变那个人所面临的风险程度?或者是能够改变原因所导致的各种结果?
- 我们对剂量的测量到底有多精确?
0x6:可信度
根据我们当下掌握的科学知识,是否可能存在一种能将原因和结果连接在一起的底层原理机制?
如果我们提出咖啡引用过量会导致人们英年早逝,在这种情况下,如果我们知道这种结果是如何出现的,而且我们的解释与当下人们对生物学的理解是一致的,那么这种说法将会更为可信。例如通过神经学研究我们发现,太多的咖啡因会让人们紧张不安并且降低他们对正在执行的任务的感知力,这导致了人们更容易陷入事故之中。
相反,如果我们提出总统穿暖色衣服时股市就会上涨,穿冷色衣服时股票就会下跌,那么这个因果关系就需要我们从了解的股票知识跨越一个巨大的鸿沟到新的理论,而且会降低它的可信度。
我们要有一个通过原因产生结果的假设机制,因为我们可能最终并不需要这种证据,但它却能让我们对自己的发现更加自信。发现的因果关系越古怪,我们就越需要这种信息作为支撑。
0x7:连贯性
根据我们当下掌握的知识,我们发现的因果关系具有连贯性吗?这个关系和我们通常认可的事实是否矛盾?它和我们的认知一致吗?
需要明白的是,科学知识的边界总是在螺旋上升的,这意味着我们当下的知识也可能是错误的,所以发现新的、和当下认识相矛盾的因果关系,并不一定代表是错的。事实上,历史上很多著名的发现,例如日心说、重力加速度不变定理等,在最开始都是违反当时人们的常规认知的。
但是,违反已有认知的事情毕竟是少数、小概率、需要个别天才科学家的努力才能做出的,社会中的99.9999%的人所做的事,都是在理论框架之内做事,这意味着我们在大部分时候,得出的因果关系也必须要符合已有的科学认知。如果新的关系和我们的认知矛盾,我们就需要三思而后行的。
0x8:实验
如果我们通过干预措施来引入导致结果出现的原因,或者提高原因出现的概率,那结果会出现吗?
实验因素和其他因素之间最大的区别在于,它要求我们积极地操控某个事物,而其他因素则完全可以通过观察得到。
0x9:类比性
如果我们了解到有一个相似的因果关系,那就可以相应降低对证据的要求,因为这个相似的因果关系已经证明了某个原因是有可能导致我们想要证明的结果的。
例如,例如我们知道乳头瘤病毒会导致一些子宫瘤之后,我们会发现一种病毒能够导致不同癌症的说法更加可信。
同时,类比还意味着可以利用关于动物的研究来更好地了解人类,或者可以将不同规模的各种系统连接在一起。
笔者思考:
有很多科学研究认为,类比性是人类有别于机器的最大不同,也是目前人工智能无法突破的一个核心点。人类小孩可以利用很少有限样本,通过学习和反馈,并基于大量的类比学习,从而迅速掌握真实世界中近乎无限的事物的运行机制,并加以决策。我们通过类比,在不同的事物之间寻找了更加底层的原理支持,推动着科学的不断进步。
笔者总结:
严格来说,没有任何一个清单可以100%确定事物之间的因果关系,也没有任何一个必须满足的或者始终能够满足的因果关系标准。上面分析的各种因素只是将概率法、机械法、干预法、实验法等方法结合在了一起,形成了一组需要考虑的因素。
在每个案例中,我们都必须考虑信息本身的质量。随机实验的信息质量可能很糟糕,事物之间的相关性可能是选择性偏差导致的结果,而用动物做实验对象的研究结果可能并不适用于某种特定的疾病。
同理,证据的标准也取决于这个证据要支持的观点到底是什么,以及由此导致的行为的潜在风险和成本。例如,谋杀案的证据标准就比究竟是哪个小孩打碎了花瓶的证据标准要高得多。因为在不同的案例中,错判的后果和风险权重是不同的。
3. 根据原因制定政策
0x1:为什么需要根据原因制定政策?
将苏打水的瓶子变小、在连锁餐厅的菜单上公布热量值、禁用反式脂肪、以及降低餐厅事物的钠含量等,如果我们知道这些因素和我们想要改善的各种健康问题之间存在因果关系,那我们能预先知道纽约市的上述行为会取得成功吗?
要想理解这个问题,我们需要知道一项干预措施的影响是什么,以及如何在各种可能的干预措施中做出选择。
这里面存在着很多挑战,例如:
- 一种行为导致的影响不一定仅仅是我们能够想到的结果。一个原因可能会导致多种结果
- 干预措施行为本身也可能会导致事物之间的因果关系发生改变
- 某种降胆固醇的药物可能在一个人身上的效果非常好,但在另一个人身上却完全无效。这是因为另一个人认为这种药物无论怎样都能帮他控制胆固醇,所以他就摄入了更多对身体有害的食谱
- 如果标准化测试成绩一开始和教学质量紧密相连,但人们用考试成绩来评价老师,那么标准化测试成绩和教学质量之间的连续就可能会变弱。因为在这种情况下,老师会把他们的教学中心完全放在为考生备考上
尽管有这么多的挑战,我们仍然想把决策建立在证据之上,而不是仅仅建立在主观的猜测和传闻上。同时,证据也应该建立在因果关系之上,而不是建立在相关性之上。
现在出现了以证据为依据的医学、设计、教育等学科运动,叫询证科学,学者们主张采用以证据为依据的研究方法,并试图确定什么是好的证据。通常,证据会呈现出一个等级不同的金字塔体系,而RCT无一例外地会出现在这个金字塔的顶部。
然而,这些体系只是一个基准参考标准,实际工程实践中并不能严格按照这个标准进行。
从理论上说,一个完美的RCT可能是最好的证据,但在现实生活中,我们对比的并不是一个完美的实验和一项观察性研究。相反,我们可能面对一个规模很小且带有偏差的随机试验研究,和一个非实证性证据。
在实践中,我们不得不依据这样的信息来采取行动。所以,知道如何以更好的方式来应对这种情况对我们至关重要,我们本章接下来会注意讨论需要注意的事项。我们将考察各种因素来决定什么时候实施某项政策以及如何得出一般性结论。
0x2:一项公共政策的例子
继续上一小节的话题,关于为什么需要根据原因制定政策,我们来看一个具体的例子。
纽约、伦敦和巴黎等城市都曾实施过公共自行车项目。用户可以在一个地方取用一辆自行车,然后在靠近目的地的地方归还这辆自行车。这个项目试图减少人们开车出行的次数,并且通过促进人们从事更多的体力活动阿里改善人们的健康状况。
现在问题来了,这个项目能否成功呢?能否实现其预期的效果?
这个项目能否实现其预设目标取决于以下几个假设:
- 骑自行车是一种有效的锻炼形式
- 这个项目会增加人们骑自行车的次数,而不只是让人们放弃骑自己的自行车,而改骑公共自行车
- 如果我们试图在一个另一个城市实施同样的政策,又会出现什么样的情况
- 政策的干预措施是否是单变量的,是否会引发连锁的副作用
- 如何才能让这个原因出现,例如:
- 是否赠送自行车
- 举办骑行培训课程
- 引入自行车共享计划等
- 是否要求骑行者佩戴头盔
我们接下来从背景、效力和效果、意外的结果,这几个维度来分别展开讨论。
1、背景
我们需要了解的首要信息之一就是一项干预措施发生的背景。
- 是否只有在有了受保护的自行车道的情况下,这种自行车共享计划才能实现?
- 这个计划是否需要一个足够大的、已经存在的骑行群体?
- 这个计划是否只有在人口密度比较高并且有很多自行车停放点的城市才能实施?
背景本质上就是 Mickie 提出的 INUS方法,即所谓的背景,就是指一组原因因素的必要条件组合。
为了成功干预,我们需要知道哪些因素能让一个原因生效,以及我们要实施某项政策的地方已经具备了这些因素。
我们还需要知道那些有可能让原因无效的因素都不会出现。比如,
- 由于某种新药的价格太高,病人未能按照要求的剂量服药,那么这种药物就不会产生效果
- 如果一个城市没有自行车道,而骑行车又发现在机动车道骑自行车很不安全,那么自行车共享计划可能就不会被采纳
- 蚊帐是预防疟疾的重要手段,但蚊帐的价格是影响效果的重要因素,在发放蚊帐的地区,有一些人将蚊帐当做捕鱼的渔具。因为这些地区缺乏食物,所以与疟疾相比,饥饿是一个更迫在眉睫的问题
2、效力和效果
我们前面说过,在完美实验室通过盲法得到的因果结论,到应用到现实世界时,往往很难达到同行的效果,甚至完全不起作用,即发生了所谓的外推性失效问题。
效果和效力的差别在医学上最为明显,无论什么时候,只要我们使用来自控制条件下的信息来指导其他背景下的干预措施,就有必要想一想效果和效力的差别是什么。
比如,
- 由于在日常生活中,人们不太注意血样污染和洗手的问题,所以指尖血糖仪在现实生活中测出来的结果就没有在实验室控制条件下测出来的结果那么准确
- 在服务器的日常运维管理中,管理员自己也经常会登录服务器,执行一些软件安装卸载,甚至下载等异常操作,所以 HIDS 在实际生产环境中的的实际误报就会比实验室测试集上的误报率要高
- 在一项药物研究中,因为某种药物每天都在同一时间服用,所以小李很高。但是实际生活中,因为每天服药的时间变化幅度很大,所以它的效果可能就没那么好了
效力和效果不同的可能性大小(以及它们之间差别的大小)会直接影响我们对干预措施的选择。
我们是否有理由认为在真正实施干预措施的时候还能保持同等规模的影响?
在选择不同的干预措施时,我们不仅要考察哪些措施是有效的,还要考察那些有效措施的作用有多大。
实施干预措施的环境可能与发现因果关系的实验环境很不一样。充分意识到这一点可以帮助我们预测干预过程中可能出现的失败情况,并帮助我们提出不同的干预策略来避免出现干预失败的情况。
3、意外的结果 -- 政策实施导致发生的副作用连锁反应
一个叫作田纳西州SATR项目的随机试验发现,被分到小规模班级的学生在标准化考试中的成绩比那些分到较大班级的学生要好。
在这个试验中,我们知道实施小规模班级干预措施的具体细节(即了解背景知识),通过随机分配各个小组,试验考评者排除了其他因素的影响,确保不可能出现某个既会导致班级规模变小,又会导致学生考试成绩变好的因素(即排除了共同原因,保证因果关系的可信度)。
在加州,人们一直担心班级规模太大对学生不好,随着田纳西州STAR项目得出的积极结论,加州实施了一个数十亿美元的项目来缩小班级规模。在田纳西州的实验中,教师和学生被随机分配到规模不一的班级中。这个项目很快被各个学校所采纳,但是,意外发生了,由于班级规模变小额学生总体数量不变,学校就会需要更多的老师。由于师资力量跟不上不断增长的需求,在这项政策实施后,教师队伍中无经验老师的占比上升了。
让我们来看看问题出在哪里?为什么在充分了解和设定了背景知识,同时经过严格的因果推理后,在政策实施过程中,依然导致了非预期的结果?
1)副作用效应
在那些低收入校区和少数名族校区,由于教室的数量不够,这个政策的推行时间更长了。
同时由于教师数量不够,这个政策又未能及时实施,这导致这些校区一度处于劣势。结果,这些校区最终招聘到的教师中有20%以上没有各种资格证。
然而,田纳西州SATR RCT的一个主要发现恰恰是少数民族的学生从小规模班级中受益最大。但问题是,现实世界的环境变量远远大于RCT中的控制。加州迅速激励所有学校来实施这个干预措施,导致加州学校对教师的需求激增,而各个学校争抢师资的结果,恰恰让那些本该从这个项目中受益的学校落在了后面。这就是典型的副作用效应。
我们一定要牢记这个案例!我们在工程实践中存在着大量的实验室研究结论,在将其应用到生产生活时,一定要重点评估一下是否存在类似的副作用效应。
专注于证明因果关系的研究一般不会进行这样的成本效益分析,但对于一项干预措施的实施而言,这才是至关重要的。资源不是无限的,实施了一个项目就意味着无法实施另一个项目。
除了要关注一项干预措施是否会直接实现其目标以外,还要考虑这项干预措施还可能会导致什么其他的结果。
如果我们要预测一个模型,那只需设定班级规模这个变量为真或为假即可,但是这个模型无法反映这些情况下将会发生的事情:缩小班级规模是通过经济刺激实现的,而经济刺激的资金又是从其他项目里挪出来的,并且新开设的班级没有足够的师资。
2)抽样偏差问题
在田纳西州的班吉规模缩小项目中,项目实施的规模很小,只有那些已经拥有足够的教室、可以开设新班级的学校参与其中。
显然,受限于前期研究资金的限制,这项研究的规模没有覆盖整个地区的所有学校。这就可能导致了抽样偏差问题,在一个小样本集里获得的因果推论,不一定能直接应用到其他区域中。
3)更加详细的模型
最终我们还是需要一个更加详细的模型,这个模型既可以是一个我们了解的因果关系模型,也可以是一个我们构建的模拟模型。这个模型不仅包括一个原因,还要包括实施这个原因的方法。
- 这样的模型能够让我们对比各种缩小班级规模的方法,也就是说,我们可以先针对一些教育水平不高的地区进行实验,然后评估干预措施取得的成就,而不是直接在全州范围内进行推广。这类似于改革开放在一些城市进行的试点,取得效果后再推广到全国
- 也可以先对不同的刺激计划进行测试,等等
Relevant Link:
http://www.shjee.com.cn/shjypgyj/ch/reader/create_pdf.aspx?file_no=2017020048&year_id=2017&quarter_id=2&falg=1 http://www.cqvip.com/qk/81968x/201307/46288683.html https://zhuanlan.zhihu.com/p/21661542