因果:如何缓解反事实难题?
这一讲,我们讨论理解数据的另一个重要挑战——找到事物之间的因果关系。
确认一件事是另一件事的原因,是我们最常用的思考方式之一。只有知道了原因,我们才能做预测,做解释,做干预。而这三件事,对人来说都是大事。
但是,因果关系是典型的那种你不问我我觉得我知道,但是你一问我我就不知道的问题。确认因果关系,这件事很难。
先讲一个故事:
一位女司机给4S店打电话,说:“我在超市,车发动不了了,你们来解决一下。”店里的工程师问:“你做什么了?”女士说:“我去买玫瑰花了。但是我买百合花,就没有这个问题。”工程师当然认为这是鬼扯,但是没办法,只好去了现场。你猜怎么着,女士说的一点没错,买百合车子就能发动,买玫瑰就不能。问题来了,现在经过了事实验证,你同意玫瑰花是导致汽车不能发动的原因吗?
这个案例很好的反映了通过数据去发现和确认因果关系的复杂和艰难之处。特别是当我们进入一个全新的领域,这个领域如何运行,没有人告诉我们。我们能做的,就是猜测、验证和迭代。如果对因果关系的追寻有一个总原则的话,那就是保持谦卑。
因果关系成立的必要条件
尽管确立因果关系很难,但我们也得前行。
我们先讨论最简单的情况:如果两个变量之间是因果关系,那它一定具备哪些特征呢?也就是说,因果关系成立的必要条件有哪些呢?
第一,如果两个变量之间是因果关系,那它们之间肯定有相关。
研究人员说,有混蛋人格的人与他们获得权力之间没有因果关系,那么在数据上,混蛋人格和获得权力之间肯定就看不到相关。而研究人员又说,外向性格的人更容易获得权力,它们之间有因果关系,那么在数据上,外向性格和获得权力之间肯定可以看到相关。
顺便说一下,发现事物之间的相关性也是理解数据的一个重要任务,并不附属于因果关系的追寻。比如著名的“啤酒与尿布”的销售案例,就是说,把啤酒和尿布摆放在一起销售,销量会大增,这就是一个相关性的案例。再顺便说一下,“啤酒与尿布”这个案例找不到论文的出处,很可能是记者瞎编的。
注意,如果把问题反过来,两个变量之间看不到相关,就肯定没有因果关系吗?答案是,不一定。
举个例子。运动和体重之间观察不到相关,很多人经常运动,体重还是不见下降,但我们能说运动和体重没有因果联系吗?有研究发现,运动确实减少了体重,但同时也增加了饥饿感,因此会让人吃得更多。于是,两者抵消,导致运动和体重之间观察不到相关性。
这个研究是不是可靠先放在一边,我们想说的是:两件事没有相关,可能是真实的,也可能只是表象。确定因果关系,不能只看这两件事情之间,而必须看到世界运作的全景。要是你还没有能力看到全景,那么请再一次保持谦卑,慎重下结论。
第二,两个变量之间有先后。
因果关系,必须原因在前,结果在后。
不要拿量子力学怼这个条件,量子力学只能用在自然界,不能用在人类社会这个层面。还有一些观点认为,人类社会存在反因果的案例,但我认为说服力都不足。当然,如果有了确切的证据,学术共同体有了新的共识,我们再调整认知。
第三,两个变量之间的关系不被第三个变量解释。
举个例子:
我们可以观察到,城市女性的生育率比农村女性低,我们可以说是城市导致的生育率低吗?不能。因为中间还存在第三件事——教育程度。统计发现,教育程度高,生育数量就少,而城市女性普遍比农村女性教育程度更高。所以,教育程度更好地解释了城市和农村之间生育率的差别。
明白了这个条件,我们就可以解决开头玫瑰花和汽车的问题了。
工程师在现场发现,这家超市很奇怪,卖百合花的地方和卖玫瑰花的不在一个地方。百合花离停车场近,玫瑰花离停车场远。这样,女士买百合,回来车还是热的,很容易发动;买玫瑰,回来车就凉了,导致车辆冷启动困难,于是就发动不了。这才是真正的因果关系,和你买的是百合还是玫瑰没有关系。
以上,我们的讨论仅仅局限在两个变量之间。但是,现实世界是普遍联系的,各种事情交织在一起,这时候怎么寻找因果关系呢?
整体思路是这样的:
先建立所研究问题整体的运行图景,说明各个变量之间的联系。然后去收集数据,让数据逼近这个理论图景。再然后,用数据验证这个理论。如果验证通过,就对理论更相信一点。如果不通过,就改进理论或者收集新的数据,再次验证。如此循环下去。
反事实难题
可能你会好奇,为什么寻找因果关系就这么难呢?一句话,因为缺少数据。
你说,这个很容易解决,收集数据不就完了吗?你想简单了。有的事情就是没有数据。不信看个例子——统计发现,上过大学的人比没有上过大学的收入更高。那么,上过大学是不是收入高的原因呢?
我们看看标准做法:比较两组人,一组上过大学,另一组没有,然后看看10年后这两组人的工资差异。对吗?
但是,这两组人真的一样吗?不一定。一个人能上大学,所以他才上了大学,另一个人不能上大学,因此没有上大学,这很可能就是两类人。另外,上大学这个因素,对这两类人的影响可能是不一样的。适合上大学的,大学对他们很重要;不适合上大学的,上了大学可能影响也不大。所以,这样做是不行的。
如果真要确定上大学是不是收入高的原因,就要比较同一组人。但是,一个人不可能既上过大学又没有上过大学,所以我们永远缺少数据。这就是社会科学中做因果关系的本质难题。这个难题有一个名字值得你记住,叫“反事实难题”。
相对而言,自然科学家就很幸福。这个光子跟那个光子完全相同,对一个光子做测量,就是对全宇宙所有的光子做测量,得出的结论可以适用于全宇宙。
因为这个反事实难题的存在,在社会领域推断因果关系时,我们必须牢记以下三个重要的认知:
1. 我们只能对群体做因果推断,不能对个体做因果推断。
因为一个人不能既上了大学又不上大学,所以对于单独的个体,我们就不能做因果推断。我们只能在平均的意义上比较两组人,然后做出推断。
2. 我们只能对因果关系做概率表述,不能做确定性的表述。
当我们说上大学可以提高收入的时候,只是概率性的。大部分上了大学的人比大部分没有上过大学的人收入高,但肯定存在反例。
3. 随机试验不能完全解决问题,推广到总体时要很小心。
随机试验仅仅是对一部分人做试验,这部分人能不能代表人类整体,不能想当然。
辛普森悖论
因果关系的确定之所以那么难,除了反事实难题之外,还在于确认因果关系的过程中有很多陷阱。时间有限,这里就提一个主要的,就是大名鼎鼎的“辛普森悖论”。
这是一件真事。一所美国大学的校方要求,每一个系招研究生时,女生的录取率必须高于男生。但是,校长拿到汇总表后发现,男生的录取率还是高于女生。于是校长大怒,下令追查是哪个系不听话。但是,等看到各系招生明细表时,校长傻眼了,他发现,每一个系的招生都是女生的录取率多于男生。
如果抽象一点,这件事的意思是说,在分组比较中都占优势的一方可能会在总评中失势。注意,是可能,不是一定。
我再说另一件真事。你听说过互联网公司都要做A/B测试吧?比如,A方案标题用红色,B方案标题用黑色,然后分配20万用户测试一下,10万人看见红色,10万人看见黑色。如果红色标题的点击比黑色的高,那全站就采用A方案,把所有的标题都改成红色的。
问题就在于,分配的这两个组的20万用户是不是准确代表了全量用户的情况。如果有些时候不能代表,就会产生辛普森悖论,在实验区成立的结论在全量区被逆转。
这种情况有多严重呢?据一位在内容推荐领域一线的策略产品经理的实战估计,在他自己的工作中,这种情况出现的概率小于20%。20%,可不算是小概率事件了。
划重点
1. 两个变量之间因果关系成立的必要条件有三个:一,两个变量有相关;二,两个变量有先后;三,两个变量的关系不能被第三个变量解释。 2. 因果关系的寻找是一项重大挑战,没有保证成功的一般法则。其中,最大的困难就在于反事实难题的存在。 3. 面对现实问题,我们能做的就是猜测、验证和迭代。如果对因果关系的追寻有一个总原则的话,那就是保持谦卑。
在线咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

