分解:究竟谁对你影响最大?
现实生活中,我们面对的问题都特别复杂,常常是各种因素交织在一起。这时候,怎么把各种因素分开,又怎么把理解的难度降低呢?
解决这类问题,就要靠分解来完成。分解,就是我们这一讲的主题。
什么是分解?
先举个例子给你感受一下:
美剧《纸牌屋》里有一个场景,模拟竞选总统电视辩论,每人一分钟时长。其中有一个人说,我是来为公平而战的,其中就包括为女性权利而战。数据显示,美国男性挣1美元,女性只能挣77美分。这就是不公平。
这个情节是有真实依据的。当年的美国总统克林顿在竞选的时候引用的是相同的数据,承诺他就职后会推进男女平等,缩小差异。
男女之间的工资有差异,这是事实。现在的问题是,这个差异是不是就说明两性之间的不平等呢?
不一定。因为从逻辑上说,这里有两个可能的影响因素,一个是两性的身心差异,另一个是歧视。这23美分的差异多大程度上是因为两性的身心差异?多大程度上是因为歧视呢?想知道这两个因素的影响程度如何,就需要分解。
有两位经济学家完成了这个工作。他们聪明地使用数学技巧,把整体的男女工资差异分成了两部分,一部分对应身心差异,也就是自然差异,另一部分对应歧视。
时间有限,我们不展开细节了,但可以说一下研究发现:目前,比较不错的情况是北欧国家,歧视的影响几乎没有,而男女身心差异导致的工资差异大约在10%左右。可以这么说,一个经济体男女工资差异在10%以内,就可以认为对女性没有歧视。
这个案例给我们的启示是,一定要建立分解的意识,不要一见到差异,就想当然地认为都来源于一个单一因素。很多事情,有差异是正常的,平等不等于相等。
因子分解方法
这个案例其实还有一个点,不知道你注意到没有:研究者非常明确地知道要分解成哪两个因素。这给研究者指明了方向。有方向是一件特别幸运的事。很多时候,我们并不知道一个总效应是由什么因素组成的。那是不是就没有办法了呢?
当然不是。我们可以用数据挖掘的技术来帮忙。相关的方法很多,这里介绍一种常用的——因子分解方法。
我先做个比喻,让你理解一下因子分解的思路。
每一个人的体重都不同,这些不同可以分成两部分,共性的部分和特殊性的部分。共性的部分有脂肪、肌肉等,特殊性的部分五花八门,比如有的老兵体内留着一片炮弹碎片。这样你就会发现,对于特殊性的部分,我们做不了什么,因为来源多种多样。而对于共性的部分,可以继续分解,脂肪大概多少、肌肉大概多少等。我们把脂肪、肌肉这些大家都有的东西称为“公共因子”。
体重的问题只是个比喻,因为我们面对的是看不见的事物,用数据的方式提取它们,就需要一点想象力。现在,我们可以用这个思路解决一个真问题:“浪漫爱情”这个抽象的观念如何分解呢?
2009年,上海社科院的研究者做了这个尝试。受访者回答了19道问题。还记得问卷的知识吗?一道题就是一个变量的测量。我选两道题你感受一下:
问题1,与爱情相比,社会地位、宗教的不同都不重要。 问题2,一生中,爱神可能多次降临,但真爱只有一次。
根据受访者的回答,再经过数据处理,浪漫爱情的共性部分被分拆成了6个因子,它们分别是抗阻力、经济基础、非理性、潜在影响(考虑对未来、家庭和后代的影响)、唯一(指爱情的排他性)、激情。
你看,浪漫爱情这个看不见摸不着的东西,它的共性部分就被识别出来了,并且这个共性部分还被我们分解成了6个因素。
那么,这个共性部分的比例是多大呢?研究人员报告说,占了55.4%。不能说有多满意,但是比例也是过半了。
根据这个思路,如果把男女分开测量呢?这样不就能比较出性别差异了吗?比如可以回答这样的问题,总的来说,是男生更浪漫还是女生更浪漫啊?这篇论文的答案是,男生更浪漫。
你赞同这个结论吗?可以先看看这个研究的数据收集和处理的过程,比如样本只有800人,都在上海和成都,年龄在20-30岁之间,19个变量,55.4%的解释比例。知道了这样的数据,你也会谨慎对待论文的结论吧?
重点在于,你阅读论文、报告、专著等应该用什么姿势。没有数据思维的人只看结论,有数据思维的人看产生结论的过程。
回到因子分解。因子分解还有一个数学上的优点,就是提取的几个公共因子之间是相互独立的。也就是说,在数学上保证了它们代表的是不一样的东西。这就把相互纠缠的因素分开了,本质就更易于理解了。从信息的角度看,原来大量的复杂冗余的原始信息就被浓缩精简了。
因为我借用了“把体重分解成脂肪肌肉”这个比喻,也许会让你以为这些公共因子是客观的,已经存在的。其实不是,公共因子是依照统计标准提取出来的,如何解释是一个主观建构的过程。也就是说,因子解释是事后进行的,这个过程有数据的依据,有技能的应用,更是研究者认知水平的反映。
在浪漫爱情的共性部分中提取6个因子,是有数据依据的,但是为什么这个因子代表“抗阻力”,那个因子代表“激情”,就有研究者主观参与了。这就是很多人把因子分解方法称为“探索性的方法”的原因。我更想说的是,没有包打天下的技能神器,了解每一种数据技能的优点、缺点、适用条件是非常重要的。
如何进行分解?
最后,如果艺高人胆大,在充分理解现实和数据的基础上,你可以创造性地分解数据,回答别人解决不了的问题。
举一个例子你感受一下:
这一次的任务是,解释已婚男性的工资为什么比单身男性的工资高。已婚男性比单身男性的工资高,这是一个普遍现象。在中国,要高6.8%。怎么解释呢?
我先讲个段子,再次请出克林顿。有一次,前美国总统克林顿跟妻子希拉里开车外出,途中去加油站,发现加油工人曾经追求过希拉里。于是,克林顿得意地对希拉里说:“幸亏你嫁给了我,要不然你现在就是加油工人的老婆。”希拉里马上回应说:“错,要是我嫁给他,他就是现在的美国总统了。”
这个段子当然是编的,但它其实提供了对结婚男性比单身男性工资高的两种解释:一种是选择效应,指女性在择偶的时候,更愿意找优秀的、工资高的男性,所以这种男性就更容易结婚,那表现出来的现象就是已婚男性工资更高。另一种解释是相夫效应,说的是男性结婚后会得到妻子提供的很多帮助,于是工资会变得更高。
到底哪种解释更有力呢?
显然,我们的任务是分解已婚男和单身男工资差异这个总效应。
分解的难点就在于,数据表明,妻子的受教育程度和工资越高,男性婚后工资就越高。但是,妻子的受教育程度和工资水平,反映了妻子帮助丈夫的能力,同时也反映了她可以找到更优秀的男人的能力,这两个因素混合在一起,就没法说明是选择效应还是相夫效应在起主导作用。这时候,分解的方向是很明确的,可是如何操作实现呢?
研究人员找到了一个巧妙的办法——看妻子的身高。他们认为,如果女性的身材过于矮小,不会影响她相夫教子,但是会影响她选择配偶。比如,身高低于1米5的女性,找一个有能力的丈夫的可能性就比较小,但是她仍然能帮助丈夫。
于是,他们就统计身高比较矮的妻子的丈夫的工资。如果这些矮妻子的丈夫的工资更低,就说明起主导作用的是选择效应,也就是说,工资高是由丈夫自己优秀导致的。而如果身高不同的妻子,丈夫的工资水平没有差别,就说明选择效应没有起作用。
最后的结果是什么呢?
数据显示,妻子的身高不会影响到已婚男性的工资水平。所以,研究人员得出结论,结了婚的男性工资更高,是相夫效应在起作用。用刚才的段子说就是,希拉里的说法是对的,克林顿的说法是错的。
这个结论你信服吗?不信服也是正常的。因为它有一个假设,就是身高低的女性找到有能力的丈夫的概率更小。但这一点真的成立吗?就仁者见仁了。
不过,我们的重点不是讨论问题的真相,而是介绍分解的思路。在这个案例里面,研究者把妻子的身高当作一个筛选器,高身高组既有选择效应又有相夫效应,而低身高组只有相夫效应,没有选择效应,两者相减就知道选择效应有没有、大不大了。这是一个很有借鉴意义的做法。
划重点
1. 所谓的分解,就是把影响一个复杂事物的各种复杂纠缠的因素分开。通过分解,可以浓缩信息,探究本质。
2. 要建立分解的意识,不要一见到差异,就想当然地认为都源于一个单一因素。
3. 分解的办法有很多种,因子分解只是其中的一种。每种分解方法都有各自的优点、缺点和适用条件。如果不确定你要解决的问题应该用哪种方法,可以找数据专家咨询。
点击咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。