推理:怎么发现数据隐藏信息?
数据不是孤立的,它是一个信号,一个线索,除了它本身之外,还隐藏着很多信息。发现已知数据背后隐藏的信息,是一个重要的能力,也是数据思维的一部分。
我们要了解如何让数据说话,发掘数据背后隐藏的信息。焦点是对数据本身含义的挖掘,而不是以此为线索,一路追击,发现更多的数据。比如,从一个街头犯罪一路追踪,最后发现他背后有一个保护伞,这就不是我们的任务。这一部分有点像福尔摩斯的推理,是从华生身上的特征推论他去过阿富汗。
挖掘隐藏信息的经典案例
我们先看一个例子,欣赏一下有了数据思维,能通过一个数据做出怎样的思考。
这是一个真实的故事。第二次世界大战期间,盟军需要知道德国人一个月生产多少辆坦克。当时,德国人每生产一辆坦克,就在坦克上刻一个序列号。现在我们假设,德国人每个月生产的坦克序列号是从1到N。N就是一个月总的产量。因为我们不知道是多少,所以就用N来表示。我们的任务就是估计这个N到底有多大。
这里只讨论最简单的情况。某一个月内,盟军只发现了一辆德国坦克,序列号为60。如何估计这个月德国人的坦克产量呢?
你是不是会说,这怎么可能?就一个数据,能用什么方法?只能瞎猜。
好吧。让你看看统计学家能用这一个数据推理出什么结果——
首先,凭什么一下就缴获了序列号最大的那一辆呢?这个概率太小了,所以N的值起码大于60。
其次,假设这个月生产的任何一辆坦克都有可能被缴获,我们就要公平地对待每一个样本。用统计学的术语,就叫“样本的无偏性”,就是说对数据没有偏心眼。而最符合这个无偏性条件的,就是把缴获的这辆坦克的序列号看成中间的那个。既然60是中间点,那生产总量就可以估计为120辆。
你看,一个数据也能分析出很多信息。
这其实是一个真实的故事,所以我就告诉你真实的结局。当时,盟军为了了解这个信息,采用了两种方法,一种是派间谍,另一种是请统计学家分析。间谍的报告是1000辆以上,而统计学家的结论也就是几百辆。谁正确呢?
二战结束之后,盟军对德国的坦克生产记录进行检查,得到了准确的数据。1942年8月,情报估计的德军坦克生产量是1550辆,统计学家估计的是327辆。而德国真实的生产记录是多少呢?342辆。
统计学家完胜情报人员!
现在我们知道了,数据隐藏的信息特别多,只要善于发现,就能找到很多有价值的信息。可问题是怎么做,用什么方法才能挖掘出数据背后的隐藏信息呢?这里介绍三个常用的方法。
方法一:数学推断
先利用数学知识做出假设,然后再进行推断。
刚才估计德军坦克的故事,就是一个典型的案例。
不过要提醒你的是,当任务很容易定位成数学任务的时候,就像估计德军坦克产量这样,我们会很自然地调动已知的数学知识去解决,高手和低手之间的差别就在数学知识的掌握和使用上。但是,当任务看起来跟数学没有关联的时候,我们常常会忘记调用数学知识。
离婚率这个话题,当媒体报告,离婚对数与结婚对数的比值这个指标今年又上升了。你觉得这个消息值得重视吗?
这时候,你就可以反过来把媒体的思路拆解,先看看它的假设是什么,然后再判断这个消息靠不靠谱。
从离婚率的定义上看,是离婚对数与结婚对数的比值越来越大,但是,有三种可能会导致这个变化:一种是主要原因在分子,也就是离婚的越来越多;另一种是主要原因在分母,也就是结婚的越来越少;第三种是相对情况,比如分子分母同步变化,但是分子的变化幅度更大。
所以,要真正读懂离婚率,我们要找到主要因素。
先看分子——当年的离婚对数。但是,谁能离婚呢?必须要先结婚才能离婚吧?所以这么些年下来,已婚的人数会逐渐累积增多。已婚人数多了,离婚的自然也就会多,即使离婚率没有变化,离婚对数也会增长。所以,分子逐渐变大是正常的,关键在于变大的速度是不是加快了。
再看分母——当年的结婚对数。这个数字与进入婚龄的人口数量相关,也就是受到20年前新生人口数的影响。20年前新生人口数越多,现在结婚的自然就越多。
查阅近20年的数据,我们看到的是:离婚对数在20年内慢慢上升,坡度很缓。而结婚对数的曲线是一个大鼓包,20年间,前14年在快速上升,在2013年达到高峰,随后快速下降,到2019年回到了2001年的规模。
这样看来,近年来的离婚对数与结婚对数比值的上升,主要是结婚人数下降导致的。如果今年这个数据上升,隐含的信息不是婚姻幸福的人越来越少了,越来越多的新婚夫妇都离婚了,而是结婚人数在不断下降。
方法二:逻辑推理
具体的推理过程与各个领域的规则和限制条件相关。
比如斗地主,这是一种扑克游戏,三个人打一副牌,分成两边对战。如果你手里有4个5,没有4,现在上家出了2个4,那么,牌面上的2个4还隐藏了什么信息呢?答案是,下家还有2个4。
推理过程是这样的:
首先,上家不可能有4个4。因为4个4是一个炸弹,价值很高,他不会傻到不要炸弹而把4个4拆开。其次,上家会不会有3个4呢?如果他有3个4,还要只出2个4,必定是手里有顺子,比如45678之类的。但是,你手里有4个5,所以上家不可能有顺子。结论,另外2个4在下家。
这里没有复杂的数学,但要充分理解游戏规则,把这些规则作为限制条件来进行推理。
这个推理训练要经常做,对数据思维的养成很有用。这里介绍一款个人玩儿的小游戏——数独。
数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出剩余空格里的数字,并满足每一行、每一列、每一个小九宫格内均含有1-9,不重复。这种游戏只需要逻辑思维能力,与数字运算无关。虽然玩法简单,但又千变万化,是个锻炼推理能力的好方法。
方法三:切换视角
先举一个简单的例子:一场瘟疫死了2万人。有人说,不对,这是“一场瘟疫导致一个人死亡”这件事,发生了2万次。这就是典型的切换视角。
再说一个比较复杂的,有一个故事是这样的:
我们的课程编辑老耿找到小杨,问小杨,如果给你1万元,让你一次吃6个巨无霸汉堡包,你吃不吃?小杨想了想,1万元挺多的,虽然6个汉堡一次吃完很难受,但是很值,所以我吃。
老耿接着问小杨,我不给你1万元了,给你9999元,你吃不吃?小杨想,9999元与1万元相比,就差1块钱,差别不大,吃!
老耿接着再问小杨,我不给你9999元了,给你9998元,你吃不吃?小杨想,9998元与9999元相比,还是只差1块钱,差别不大,吃!
于是老耿就做出了推理——要是这么一直问下去,我只给你1块钱,你就会去吃。
问题来了,老耿的推理正确吗?如果不正确,问题在哪里呢?凭直觉,你应该也会觉得不正确,但问题在于,你能说清楚哪里不正确吗?
实际上,老耿的游戏启动了两个心理账户:一个是可变的锚定点,每次都只比上一次少1块钱,这个差别不大;另一个是不变的锚定点,就是1万元那个起点。老耿的每一个提议,钱数与可变锚定点确实变化不大,只比上一次少一块钱,但是与不变锚定点的距离越来越大。大到一定的程度,突破了小杨的心理底线,这个游戏就玩不下去了。
这个故事用一个关系,也就是新报价与前一个报价的对比来看,说明报价的差异很小,证明只给1块钱也会答应。但是用另一个关系,也就是新报价与第一次报价的关系来看,差异就不是很小,而是很大,因此推理说1块钱也会答应是荒谬的。
通过不同的视角观察数据,数据就会在不同的关系下发出不同的隐含信息。
单一的一个数据包含的信息也不是那么少,我们需要把隐含的信息挖掘出来。教你三个方法—— 1. 数学推断。先利用数学知识做出假设,然后进行推断。 2. 逻辑推理。从各个领域的规则和限制条件出发,进行合理化推测。 3. 切换视角。在不同的视角、关系下观察数据,数据就会发出不同的隐含信息。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。