数据思维究竟是什么-数据思维常见3个误解
对数据思维的三个误解 先问你一个问题:这里有一组数字,1、2、3、4、5,它们的平均值是多少啊?
你一定脱口而出,3。 回答正确。问题是,这是数据思维吗? 答案是,不是。这不是思维,而是人类先天携带的数字感。
拜自然进化的福气,我们一出生大脑里就有了数字感。不需要谁教就知道, 西瓜比芝麻大,不能捡了芝麻丢了西瓜;知道买一送一比什么都不送好;知道一个酒店有 100 间房,要隔离 150 人,就肯定有些房间不止会住一个 人。 虽然先天的数字感是获得数据思维的重要基础,但是它有时候也不靠谱, 会把我们带到沟里。比如在必胜客,很多人就觉得,两个 6 英寸的披萨和 一个 12 英寸的披萨差不多大。但其实,你可以算一下,大小差远了。既然先天的数字感不是数据思维,是不是后天学习到的本事才是呢?我们 把任务升级一下,计算中国城市居民的平均收入。这可是十亿条规模的数 据量,心算手算都不行了,必须动用数据处理工具。会用数学工具,这是 不是数据思维呢? 抱歉,这是技能,也不是思维。
你一定会问,既然技能不算,那是不是我知道用求平均值这个方法能算出 平均收入这件事是数据思维呢?很抱歉,这还不是思维,而是知识。 这也不是,那么不是,到底什么是数据思维呢? 数据思维是使用数据来提出问题和解决问题的能力。 计算中国城市居民的平均收入,这是一个问题定义非常明确的任务,你只 需要调动自己的知识和技能去完成这个任务就好。而数据思维,是针对问 题的。设想一下,如果我们面临的任务并不明确,不是直接让你计算平均 收入,而是一个大领导,就在电梯里问你:“咱们国家去年城市居民的收入 状况什么样啊?” 这是一个具体的问题,而且在电梯里,你肯定不能长篇大论,最好的方法 就是用一个指标明晰地回答问题。 一个有数据思维的人就应该这么思考: 平均值反映的是一组数字的集中情况。但是收入这件事,各人之间的差别 太大了。有人年收入过一亿,有人年收入还不到一万。过亿的人少,不到 一万的人多,所以用平均值就不能反映全貌。如果要反映全貌,中位数就 更合适。中位数是指一组数字的中间位置。比如中位数是 2 万元,那就意 味着中国城市居民有一半年收入比 2 万高,有一半比 2 万低。所以,如果 你能脱口而出“用中位数表示”,那就是一个特别有数据思维的回答。 这才是数据思维,使用数据来提出问题和解决问题。高水平的数据思维什么样?
下面讲一个真实的故事,看看高水平的数据思维是什么样子的。 美国佛罗里达州的一个县有一家报纸,名字叫《太阳哨兵报》,发行量不 足 23 万份。报社里有个小记者,叫萨莉·克斯汀。我们就叫她萨莉吧。 在 2011 年的时候,萨莉注意到一个新闻——当地一名退休警察超速行驶, 造成了恶性交通事故。萨莉查阅了近 10 年的记录,发现这样的事情不少。 于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会 问题。但是,怎么证实这件事呢? 采访?不可能。就算有些警察愿意告诉你一些情况,那也只是个例,不是 事情的全貌。 抓现行?也不可能。萨莉真的尝试过跟踪警车,抱着测速雷达在高速公路 旁边蹲守,一发现有车辆超速,立刻驱车追赶。但很快发现,这根本行不 通。第一,超速的不一定是警车,追了半天,发现不是警车就白追了。第 二,就算运气好,抓到了警车,你也无权截停,仅仅有影像证据,并不充 分,也不能服人。 萨莉最后想到了解决办法——申请数据公开。因为警车是公务用车,根据 美国法律,公民有权了解其使用状态。因此,她获得了 110 万条数据。 这些数据是当地警车通过不同高速公路收费站的原始记录。这就好办了。 警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,速度就出来了。有没有超速,不就 很清楚了吗?
在专业数据分析人员的帮助下,萨莉用了 3 个月的时间处理这些数据。得 到了什么结果呢? 她发现,在 13 个月里,当地 3900 辆警车一共有 5100 宗超速事件,也就 是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上 下班时间和上下班途中,这说明警察超速并不是为了执行公务。 2012 年 2 月,萨莉发表了系列报道。在大量数据和调查访谈的基础上,萨 莉得出结论,因为工作需要和警察的特权意识,开快车成了警察群体的普 遍习惯,即使下班后身着便服,车速也没能降下来。 报道一见报,舆论哗然。一些坐实违纪的警察陆续受到处理。48 名州高速 公路巡警被处以警告或者被勒令纪律反省。44 名地方刑警被剥夺开车上下 班的权利。迈阿密市有 38 名警察被处理,其中 1 名开除,10 名停发工资。 萨莉也因为这个系列报道,获得了 2013 年度的普利策新闻奖。这是美国新 闻传播界最重要的奖项。
三个重要启发 这个事件告诉我们什么呢? 第一,数据思维不同于数据知识和数据技能,数据思维是用数据提出问题 和找到解决问题的办法。萨莉记者的数据技能是不够的,我猜她肯定不会 Python,不会 SAS,不会 清洗数据,也不会校验数据。否则,110 万条数据并不是一个了不得的规 模,一般的数据分析师处理这类简单任务也都是小 case,但萨莉自己处理 不了。 但是,萨莉建立了数据分析的框架,知道怎么利用数据产生她需要的结果, 并且这些结果能完美地契合她要讲述的新闻故事。这就是数据思维。 第二,数据思维发挥作用,需要与其他能力组合。 萨莉的新闻敏感度、问题意识、行动能力,都不能归结为数据思维,这些 都是与数据思维不同的能力和品质。它们与数据思维组合起来,才能完成 一次高水平的新闻报道。 这就是说,数据思维不是包打天下的大力丸,好像有了这个思维就可以自 动站上浪潮之巅。但是,高水平的数据思维可以与其他能力互补和协同, 形成 1+1>2 的整体效应,大幅提高思考问题和解决问题的能力。 第三,数据思维是对数据知识和数据技能的认知。 这句话有点费解,我们慢慢梳理一下。一开始说了,数据思维是使用数据 来提出问题和解决问题的能力,它与数据知识和数据技能不是一回事。
但是,思考和解决问题,肯定又离不开知识和技能,这三者之间是什么关系 呢?答案是,我们对掌握的数据知识和技能形成一些认知,这些认知就是数据 思维,然后我们以这些认知为工具来思考问题、解决问题。 举个例子,曾经有一位公司董事长在与协作公司的高层会议上热情澎湃地 发言说:“我们双方是强强联合,不仅要做到 1 加 1,更要做到 1 乘 1。” 1 乘 1 还是 1,而 1 加 1 等于 2,1 乘 1 并不比 1 加 1 大,为什么董事长会 犯这么简单的错误呢?因为很多人都有“乘法总是变大”“除法总是变小”的 观念,这种认知让他们如此使用数据,结果闹了笑话。 我再举一个例子,假设我们需要监控一个 10 公里以外的设备的电源是否 接通,你会怎么解决这个问题?是派人去定时巡查吗?这样做成本高,犯 错的可能性也高。其实,你可以用一个联网的摄像头给显示电源接通的信 号灯拍照片,然后把图像从网上传回来,用图像识别软件识别信号灯的情 况,如果灯不亮就发出警报。 为什么很多人想不到用图像的方法呢?因为在他们头脑中,收集数据的方 法只局限于人工观测,想不到其他的方案。
总之,我们是依据我们的认知来思考的。这些认知来自我们对自己掌握的 数据知识和数据技能的理解,我们会在不知不觉中被这些或明或暗的观念 所限制。当然,如果认知升级,观念更新,就会发现新天地,也会产生解 决问题的创意。请注意,数据知识和数据技能看起来好像是客观的,但对它们的理解、认 知却是因人而异的。这就是每个人的数据思维水平相差很大的重要原因。 最后,再说一点励志的鸡汤: 萨莉是一名女记者。为什么强调她是女记者呢?为了向她学习。女生不要 拿自己是女生做借口,说女性就是对数字无感,数学不好。看看人家萨莉, 即使不会编程,照样做出了突出的成就。男生更应该像萨莉学习。就算你 数学好,会编程,也不等于数据思维就高。获得数据思维是一个独立的任务。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

