表征:如何确定你到底是谁?
上一模块,我们学习了收集数据的各种方法。数据有了,怎么知道这些数据告诉我们的信息呢?这就是理解数据。从这一讲开始,我们进入课程的新模块——理解数据。
说到理解数据,最常见的问题就是:我们怎么从这些数据中得出判断,从而给事物定性呢?用数据的术语来说就是,我们怎么用数据去表征一个事物呢?
用数据来给事物定性,在生活中我们并不陌生。一叶落而知天下秋,一叶落就表征了秋天的开始。开车的时候,后视镜里的汽车越来越大,说明它的速度比你快。跟姥爷打麻将,他一旦用大拇指反复蹭桌子,你就知道他听牌了,因为你非常了解他的习惯,也就是他的行为模式。
但是现实中大量的事物都是不可见的,它的特征隐藏在数据中,我们只能从数据中获得信息来形成判断。这是我们理解数据的重要任务之一。
识别挑战,反思认知
我们就用「得到」App举例子。「得到」现在使用情况的趋势是什么呢?这个靠肉眼是看不出来的,必须通过数据才能知道。
可是用什么指标来表征呢?是日活吗?也就是每天都使用得到的用户数量。是留存率吗?也就是有多少用户来了就不走了。还可能有其他变量,每个变量都表征了「得到」App使用情况的一个维度。选择谁,或者选择怎么组合,才对应我们心中的“使用趋势”呢?
假如指标我们确定是“日活”。把日活数据跑出来一看,数据猫一天狗一天,高高低低的,有的是课程上新导致的,有的是做促销导致的,趋势被这些噪音严重干扰。
假如现在我们使用数据技能消除了噪音,发现连续30天日活上升。我们敢下结论,趋势就是上升吗?不敢。因为放宽视野来看,如果这个月正在一个大的上升周期当中呢?这一个月的上升本来就是大势,现在的数据跑赢大盘了吗?
诸如此类,一个问题接一个问题,只有解决了所有问题,最终你才可以有足够的信心说,这些数据表明「得到」App的使用趋势是上升的。
我们再次理解一下这个案例,在使用数据之前,必须完成两件事:第一,识别真正的挑战是什么,明确我们到底想定性什么;第二,不断反思自己对这件事的认知。
这第二点,特别容易被忽略,我再展开说一说。
对趋势来说,如果你知道趋势是数据沿时间线展开的模式,你要尽可能地提取现有数据蕴含的所有信息,用一个最合适的方程表达出来,那么你对趋势的认知就比那些只会使用“线性回归”这些技能的人水平高很多。
当然,我不是说掌握更多的数据技能和知识没有用,相反,更多的数据技能和知识会让你视野宽广,分析规范,不会犯低级错误。我只是强调,你的认知决定了你如何使用数据技能。
根据信息调整表征方向
不过,使用趋势这个问题其实是最简单的,因为目标很清晰。但是,现实生活中还有更复杂的情况,我们事先不知道我们要表征的方向是什么,只能在寻找的过程中确定。
我给你讲个故事:
有一位叫沈凌的医生,接诊了一位57岁的女患者。患者说自己反复胸闷2年,多家医院都诊断为冠心病,而且有证据,心电图显示频发室性早搏。
一般来说,普通医生很容易就按照表征冠心病的思路去安排检查了,但是沈医生有疑问。
沈医生问患者的第一个问题是:你的胸闷是怎样的?能描述一下吗?一番询问之后,发现患者并没有心绞痛样的胸痛症状。这就让沈医生开始思考:在50-59岁这个年龄段的女性,患冠心病的概率是多少呢?答案是,如果有典型心绞痛的症状,患病概率有73%;如果有非典型心绞痛的症状,患病概率会下降到31%;如果没有心绞痛样的胸痛的症状,患病概率就只有7%。也就是说,这位患者患冠心病的概率只有7%。
只有7%的话,那还应该优先安排冠心病相关的检查去表征冠心病吗?当然不能。这就提示沈医生必须扩大视野,提出新的假说。
根据病史采集得来的线索,沈医生给患者做了一系列肺功能检查。其中,患者第1秒用力呼气的气体容积是1.48L,用力肺活量是2.16L,两者的比值是68%。这个68%是什么意思呢?就是“中重度阻塞性通气功能障碍”,也就是喘不上气的重要表征之一。
于是,加上其他几个维度的表征,再结合临床表现,沈医生下了诊断:患者是支气管哮喘,而不是冠心病。
这个案例给我们的启示就是,在面对复杂问题时,我们需要随着信息的增加而不断调整表征方向。
用数据表征和解决问题
上面的讨论都是从挑战出发寻找表征,不过在现实中有相当多的情况是,你已经有了现成的数据,但这些数据能解决你的问题吗?
这个问题分为两层。第一层的问题就是,怎么确定一个数据到底表征的是什么呢?
我们看一个例子——电视节目收视率。
收视率,看起来定义很清晰,就是看过节目的观众占全体观众的比例。但是,你可以用这个数据表征节目质量吗?
能还是不能,需要回到数据产生的源头。
收视率是怎么得来的呢?分母一般不变,就是全体观众的数量,所以主要就是确定分子。分子是怎么来的呢?是按分钟数统计来的。我虚拟一个情况:一个电视节目的时长有10分钟,第一分钟有10个人看,第二分钟有20个人看,第三分钟有30个人看,以此类推,第10分钟有100个人看。把这些人数加起来,就是550人。这样分子就确定了。
注意,这550人是550个不同的人吗?不是。有的人是从头看到尾,有的人只看了第一分钟和第十分钟。所以,这550人实际上是“人分钟”,就是多少人和多少时间交给了这个节目。
所以,从收视率数据产生的源头看,收视率真正反映的是观众的注意力规模,而不是节目的质量好坏。因此,你不能用收视率直接表征节目质量。
第二层问题其实更难——如果没有现成的变量能表征我们想要的概念,怎么办呢?自己构造。
讲一个在央视工作时的一次探索。当时的任务是,如何衡量一个新闻记者组的制片人的业务管理水平呢?这个用传统方法做不太容易。如果能使用客观数据来表征,就会有很多好处,比如不受人际关系的干扰、避免主观评价的不标准等。但是,现有的数据就是收视率这些东西,怎么办?
我就构造了一个指标,看一个节目组内部记者工作成果差异程度在两个时期的变化。
你是不是听晕了?听我慢慢解释。
因为电视节目收视率是精确到分钟的,即使一个短短3、5分钟的新闻报道,也可以按照这个时间长度计算收视率。这个收视率就可以与制作它的记者的相关信息一一对应起来。这样,每一个记者的工作业绩就被收视率数据量化了。
单个记者的工作业绩知道了,一个节目组内部的记者之间的差异大小就知道了,就是计算表标准差嘛。我们知道,标准差是反映数据分散程度的指标。
如果一个记者组上半年内部的差异大,下半年的内部差异小,就说明制片人的管理好。为什么敢这么说呢?因为好记者的工作业绩一年内变化不大,而水平一般的记者,如果有制片人的帮助,就会提高工作成果。所以,上下半年的差异缩小,就说明这个组内水平一般的记者进步了,当然就说明制片人管理得到位。
反过来,如果一个记者组上半年内部差异小,下半年的内部差异大,就说明大家的水平进一步分化了,制片人的管理不好。
当然,肯定会有人批评这种评价的合理性。比如,内部差异缩小,可能不是差生变好,而是学霸变差了。我觉得这种情况不常见,好记者可能有一两次失手,但是一年期间做那么多节目,平均而言很少会突然变差。
但这个尝试也不能算完全成功,原因不是刚才那个批评,真正的难点是,收视率与这么小颗粒度的节目对应是有误差的。还记得吗?收视率是抽样调查,结果是个范围,用这个结果直接对应记者的工作业绩是有风险的。所以,这个尝试只能作为参考。
我为什么要举这个不完全成功的例子呢?其实就是想说,利用现有数据构造新指标来表征你的想法是有风险的事情,但是坚持尝试是很有必要的。只有坚持实践,才能磨练你的技能,提高你的数据思维。
划重点
1. 寻找表征之前必须先真正理解问题,并反思你的认知。这样才能发挥数据技能的效力。 2. 在面对复杂问题时,我们需要随着信息的增加而不断调整表征方向。 3. 当没有现成的数据能表征我们想要的东西时,可以自己构造新指标。虽然有风险,但值得尝试。
点击咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

