表征：如何确定你到底是谁？-石家庄新东方前途出国

部分内容来源于网络，版权归原作者所有。若涉及版权问题，请及时联系小编。

您的位置：首页>石家庄>美国研究生留学申请指南>表征：如何确定你到底是谁？

表征：如何确定你到底是谁？

2021.09.28 浏览 来源：石家庄前途美国部刘羽老师

分享至

微信扫码分享给好友和朋友圈

摘要：上一模块，我们学习了收集数据的各种方法。数据有了，怎么知道这些数据告诉我们的信息呢？这就是理解数据。从这一讲开始，我们进入课程的新模块——理解数据。

表征：如何确定你到底是谁？

上一模块，我们学习了收集数据的各种方法。数据有了，怎么知道这些数据告诉我们的信息呢？这就是理解数据。从这一讲开始，我们进入课程的新模块——理解数据。

说到理解数据，最常见的问题就是：我们怎么从这些数据中得出判断，从而给事物定性呢？用数据的术语来说就是，我们怎么用数据去表征一个事物呢？

用数据来给事物定性，在生活中我们并不陌生。一叶落而知天下秋，一叶落就表征了秋天的开始。开车的时候，后视镜里的汽车越来越大，说明它的速度比你快。跟姥爷打麻将，他一旦用大拇指反复蹭桌子，你就知道他听牌了，因为你非常了解他的习惯，也就是他的行为模式。

但是现实中大量的事物都是不可见的，它的特征隐藏在数据中，我们只能从数据中获得信息来形成判断。这是我们理解数据的重要任务之一。

识别挑战，反思认知

我们就用「得到」App举例子。「得到」现在使用情况的趋势是什么呢？这个靠肉眼是看不出来的，必须通过数据才能知道。

可是用什么指标来表征呢？是日活吗？也就是每天都使用得到的用户数量。是留存率吗？也就是有多少用户来了就不走了。还可能有其他变量，每个变量都表征了「得到」App使用情况的一个维度。选择谁，或者选择怎么组合，才对应我们心中的“使用趋势”呢？

假如指标我们确定是“日活”。把日活数据跑出来一看，数据猫一天狗一天，高高低低的，有的是课程上新导致的，有的是做促销导致的，趋势被这些噪音严重干扰。

假如现在我们使用数据技能消除了噪音，发现连续30天日活上升。我们敢下结论，趋势就是上升吗？不敢。因为放宽视野来看，如果这个月正在一个大的上升周期当中呢？这一个月的上升本来就是大势，现在的数据跑赢大盘了吗？

诸如此类，一个问题接一个问题，只有解决了所有问题，最终你才可以有足够的信心说，这些数据表明「得到」App的使用趋势是上升的。

我们再次理解一下这个案例，在使用数据之前，必须完成两件事：第一，识别真正的挑战是什么，明确我们到底想定性什么；第二，不断反思自己对这件事的认知。

这第二点，特别容易被忽略，我再展开说一说。

对趋势来说，如果你知道趋势是数据沿时间线展开的模式，你要尽可能地提取现有数据蕴含的所有信息，用一个最合适的方程表达出来，那么你对趋势的认知就比那些只会使用“线性回归”这些技能的人水平高很多。

当然，我不是说掌握更多的数据技能和知识没有用，相反，更多的数据技能和知识会让你视野宽广，分析规范，不会犯低级错误。我只是强调，你的认知决定了你如何使用数据技能。

根据信息调整表征方向

不过，使用趋势这个问题其实是最简单的，因为目标很清晰。但是，现实生活中还有更复杂的情况，我们事先不知道我们要表征的方向是什么，只能在寻找的过程中确定。

我给你讲个故事：

有一位叫沈凌的医生，接诊了一位57岁的女患者。患者说自己反复胸闷2年，多家医院都诊断为冠心病，而且有证据，心电图显示频发室性早搏。

一般来说，普通医生很容易就按照表征冠心病的思路去安排检查了，但是沈医生有疑问。

沈医生问患者的第一个问题是：你的胸闷是怎样的？能描述一下吗？一番询问之后，发现患者并没有心绞痛样的胸痛症状。这就让沈医生开始思考：在50-59岁这个年龄段的女性，患冠心病的概率是多少呢？答案是，如果有典型心绞痛的症状，患病概率有73%；如果有非典型心绞痛的症状，患病概率会下降到31%；如果没有心绞痛样的胸痛的症状，患病概率就只有7%。也就是说，这位患者患冠心病的概率只有7%。

只有7%的话，那还应该优先安排冠心病相关的检查去表征冠心病吗？当然不能。这就提示沈医生必须扩大视野，提出新的假说。

根据病史采集得来的线索，沈医生给患者做了一系列肺功能检查。其中，患者第1秒用力呼气的气体容积是1.48L，用力肺活量是2.16L，两者的比值是68%。这个68%是什么意思呢？就是“中重度阻塞性通气功能障碍”，也就是喘不上气的重要表征之一。

于是，加上其他几个维度的表征，再结合临床表现，沈医生下了诊断：患者是支气管哮喘，而不是冠心病。

这个案例给我们的启示就是，在面对复杂问题时，我们需要随着信息的增加而不断调整表征方向。

用数据表征和解决问题

上面的讨论都是从挑战出发寻找表征，不过在现实中有相当多的情况是，你已经有了现成的数据，但这些数据能解决你的问题吗？

这个问题分为两层。第一层的问题就是，怎么确定一个数据到底表征的是什么呢？

我们看一个例子——电视节目收视率。

收视率，看起来定义很清晰，就是看过节目的观众占全体观众的比例。但是，你可以用这个数据表征节目质量吗？

能还是不能，需要回到数据产生的源头。

收视率是怎么得来的呢？分母一般不变，就是全体观众的数量，所以主要就是确定分子。分子是怎么来的呢？是按分钟数统计来的。我虚拟一个情况：一个电视节目的时长有10分钟，第一分钟有10个人看，第二分钟有20个人看，第三分钟有30个人看，以此类推，第10分钟有100个人看。把这些人数加起来，就是550人。这样分子就确定了。

注意，这550人是550个不同的人吗？不是。有的人是从头看到尾，有的人只看了第一分钟和第十分钟。所以，这550人实际上是“人分钟”，就是多少人和多少时间交给了这个节目。

所以，从收视率数据产生的源头看，收视率真正反映的是观众的注意力规模，而不是节目的质量好坏。因此，你不能用收视率直接表征节目质量。

第二层问题其实更难——如果没有现成的变量能表征我们想要的概念，怎么办呢？自己构造。

讲一个在央视工作时的一次探索。当时的任务是，如何衡量一个新闻记者组的制片人的业务管理水平呢？这个用传统方法做不太容易。如果能使用客观数据来表征，就会有很多好处，比如不受人际关系的干扰、避免主观评价的不标准等。但是，现有的数据就是收视率这些东西，怎么办？

我就构造了一个指标，看一个节目组内部记者工作成果差异程度在两个时期的变化。

你是不是听晕了？听我慢慢解释。

因为电视节目收视率是精确到分钟的，即使一个短短3、5分钟的新闻报道，也可以按照这个时间长度计算收视率。这个收视率就可以与制作它的记者的相关信息一一对应起来。这样，每一个记者的工作业绩就被收视率数据量化了。

单个记者的工作业绩知道了，一个节目组内部的记者之间的差异大小就知道了，就是计算表标准差嘛。我们知道，标准差是反映数据分散程度的指标。

如果一个记者组上半年内部的差异大，下半年的内部差异小，就说明制片人的管理好。为什么敢这么说呢？因为好记者的工作业绩一年内变化不大，而水平一般的记者，如果有制片人的帮助，就会提高工作成果。所以，上下半年的差异缩小，就说明这个组内水平一般的记者进步了，当然就说明制片人管理得到位。

反过来，如果一个记者组上半年内部差异小，下半年的内部差异大，就说明大家的水平进一步分化了，制片人的管理不好。

当然，肯定会有人批评这种评价的合理性。比如，内部差异缩小，可能不是差生变好，而是学霸变差了。我觉得这种情况不常见，好记者可能有一两次失手，但是一年期间做那么多节目，平均而言很少会突然变差。

但这个尝试也不能算完全成功，原因不是刚才那个批评，真正的难点是，收视率与这么小颗粒度的节目对应是有误差的。还记得吗？收视率是抽样调查，结果是个范围，用这个结果直接对应记者的工作业绩是有风险的。所以，这个尝试只能作为参考。