分类:谁是他?谁是我?
工作和生活中,分类是我们每天都要做的。看到一朵花,我们需要分辨是玫瑰还是月季;看到沙发上趴着一个宠物,需要分辨它是猫还是狗;店里进来一个顾客,需要分辨他是来逛逛还是要买东西;接手一份重要工作,需要马上分辨它是重要不紧急,还是重要且紧急……
分类的任务很清楚,就是把总体分成几个小组,我们一直在凭直觉或者经验去做。
但是,如果我们面对的问题特别复杂呢?比如,怎么按照职场优势给员工分类,然后把他们匹配到最适合的岗位呢?怎么给客户划分类型,然后有针对性的出方案呢?这时候,直觉和经验就都不靠谱了。怎么办?
用数据的方法解决。在数据的方法里,分类有一整套流程和几个非常重要的认知,下面我们一一说明。
按照量的标准分类
要保证分类是有效的,首先要做到的第一点就是——按照量的标准来分类。什么是量的标准呢?就是我们用来区别事物的那个变量和这个变量的一个特别数值。
听起来有些绕,我们举个例子。要把短跑运动员分成两组,一组是优秀运动员,一组是普通运动员。怎么分呢?当然是确定一个划分标准。这个标准就是定义一个变量和这个变量的具体数值。
比如,我们把百米最好成绩小于等于10秒的运动员,归为优秀运动员这一组;其他成绩大于10秒的,归为普通运动员这一组。这里,变量就是百米成绩,标准就是10秒。
又比如,把所有运动员按照最好成绩做一个排行榜,前100名归为优秀运动员,第101名以下的归为普通运动员。这里,标准就是在成绩排行榜中的位置。
那么,是不是只能把一个量作为标准呢?当然不是。
我们耳朵都听出茧子的那个对事情的分类——紧急且重要,紧急不重要,不紧急重要,不紧急且不重要,这种分类就用了两个维度,每个维度都有一个区别的量的标准。
组内差异小,组间差异大
是不是只要按照量的标准划分,就一定保证我们的分类是正确的呢?
不一定。
举个例子。我们的任务是区别男生和女生,用“智力水平”这个变量作为标准,可以有效地区分男生和女生吗?
一统计,我们就会发现:男生群体内部,智力水平相差很大,天才很多,白痴也很多。女生的情况也差不多,高智力的女生很多,低智力的也不少,当然,比男生内部的差异稍微小一点。也就是说,组内差异很大。
再看组间差异。整体而言,男生群体和女生群体的智力水平差不多。如果男生智商的平均值是100分,女生的平均值也是100分。这就说明,组间差异很小。
组内差异大,组间差异小,这就说明用智力水平划分男生和女生是没有效果的。
那么,我们换一个变量,看看用“是否得乳腺癌”这个指标来分类行不行。数据显示,100个乳腺癌患者,99个是女性,1个是男性。这样,只要一个人得了乳腺癌,我们就能说这个人99%的可能性是女性。
这是一个区分度很明显的指标。但是,这就是一个好标准吗?不是。因为得乳腺癌的人很少,绝大部分人都没有得乳腺癌。我国的乳腺癌发病率大约是万分之四左右,男生更低。虽然这个标准的区分度很明显,但在实际工作中,它就没有太大的意义。
怎么办呢?
最常见的解决办法就是寻找一组指标,建立一个判别模型。
有一个经典的案例,任务是用4个特征——花萼长、花萼宽、花瓣长和花瓣宽,判断一支鸢尾花是哪一种,是刚毛鸢尾花、变色鸢尾花,还是佛吉尼亚鸢尾花。
怎么建立判别模型呢?先把样本分成两部分,一部分用来做模型训练,这样我们就会得到一个模型,然后用另一部分样本评价这个模型的预测准确率。等这个模型通过考验之后,就可以执行任务了。
这个模型由三个方程组成,分别是刚毛鸢尾花方程、变色鸢尾花方程和佛吉尼亚鸢尾花方程。当你知道一个样本的花萼和花瓣的数据之后,分别代入这三个方程,看看哪个方程的数字最大,那个样本就被判断是哪一种鸢尾花 。
用数据训练模型是一个很重要的方法。那些很厉害的模型,比如用B超影像对乳腺结节的良性恶性进行判断的人工智能程序,完胜医生的肉眼,它背后的原理就是如此。
所以简单总结一下,怎么才能科学有效的分类呢?其实就是一句话,按照量的标准做区分,保证组内差异小,组间差异大。
分类的结果是概率性的
这里,必须得提醒你一下:
既然分类的依据是量的标准,也是学习到的结果,那么分类的结果就一定是概率性的,而不是确定性的。也就是说,判别模型给出的结果,不管准确率有多高,都仍然有出错的可能。
比如,刚才说了,100个乳腺癌患者里只有1个男性,如果一个人得了乳腺癌,你猜他是女性的准确率是99%。但是,毕竟也有男性会得乳腺癌。如果按照“是否患乳腺癌”来区分男女,就有可能出错。
我们这里不是医学课,不是要讨论专业问题,我而是想说,数据思维不但要与数据知识和技能结合,更要与专业知识和技能结合,才能推进我们对事物的理解。
把数据和现实世界连接
当然,一切理论最终都要回归现实。上面的这些例子,我们都好像拥有上帝视角一样,知道什么数据对应什么结果,这样就很好划分。如果我们压根不了解事情到底是怎么回事,不知道正确的分类标准,那该怎么分类呢?
也有办法。
英国有一家著名超市Tesco,进入中国后叫“乐购”,是仅次于沃尔玛、家乐福的全球第三大超市集团,成立于1919年。它就有一套利用数据对顾客进行细分的经验。
首先,他们给每一个商品打标签。还记得吗?这就是元数据。每一个商品打20个标签。不过,他们做得比较特别,这些标签都是次序变量。比如,其中一个标签是“脂肪含量”,最 高打10分,最低打0分,此外还有“刺激性”“包装大小”等等。
根据这些信息,就可以对顾客的行为进行分析了。比如,有的顾客总是购买某个品类商品中便宜的一种,这种行为模式就表明他们是“精打细算的购物者”;有的顾客总是买很贵的熟食,表明这些顾客饮食很讲究,但是没有时间亲自烹饪。
通过分析,乐购得到了几十个反映顾客生活习惯的细分群,依靠命名你就可以轻松抓住这个细分群的特征,比如“低消费的忠实顾客”“每周顾客”“高消费大量囤货家庭”等。这些命名生动地反映了顾客的生活形态,当业务遇到问题时,乐购的管理者和员工就可以利用这些信息发现和解决问题。
比如,乐购曾经想推广一批品味精致的食品,但是在上层人士聚居区的门店销售得并不理想。求助于数据分析之后,他们把这些食品摆放到了有足够多的“精致的生活形态”的顾客光顾的门店中,终于取得了预期的效果。
你看,乐购就是从数据中发现顾客的消费模式,然后指导自己的销售。这也就是说,只有在数据和现实生活中建立可靠的连接,才能用数据解决现实问题。如果数据不与现实结合,很可能就会犯错误。
美国电影《不可抗拒》里有就一个戏剧性的场面。这部电影讲的是男主角——一位资深竞选专家,阴差阳错地到了一个小镇,帮助一个老兵竞选这个镇的行政长官的故事。
为了打赢竞选战,男主角调动了数据分析团队加入。电影生动地表现了一个特点,那就是,一有机会,大数据专家就挤兑民意调查专家。这也反映了现在的一个流行趋势,即大数据分析非常鄙视民意调查。
大数据是怎么怼民意调查的呢?大数据专家说,民意调查可以告诉你们人们声称自己去教堂的频率,但我可以告诉你们他们心中有没有上帝。人人都说谎,但是会把真相告诉电脑。他们的欲望,他们的偏见,每一次搜索,每一笔交易,都是无设防的私密时刻。数字足迹就是你真实的自我。
大数据专家的意思是,行为数据比观点数据更可靠。但是随后,大数据专家就被打脸了。
数据显示,一个地区聚集了一群对生育权非常关注的单身女性。于是,大数据专家指令宣传团队向这个地区密集发放竞选传单,说市长当选后,将确保避孕费用由政府支付。结果,这些单身女性纷纷打上门来,要求解释。原来,这些单身女性是修女,那里是一个修道院。
这说明,任何单一维度的数据都不能全面理解这个世界。如果数据不与现实结合,就很可能会犯错。
划重点
1. 分类就是按照量的标准把一个总体分成几组,必须保证组内差异小,组间差异大。 2. 分类的结果一定是概率性的,有出错的可能。 3. 当没有标准答案,仅仅能通过分析数据来分类时,最重要的就是建立数据与现实世界的连接。只有这样,才能确保我们的发现是合情合理的。
点击咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

