统计学和大数据:为什么大多数企业用不好数据?
我们今天很多企业使用数据决策,却失败了,就是因为所用的大数据,离开了统计的数学基础,得到的结论就不足以说服人。
今天我们就重点谈谈大数据方法的基础,也就是统计学,只有搞定其中的意义、方法和使用时的注意事项,在使用数据时,才算有了基本的行动指南。
用好大数据,你得先明白统计学。
使用数据方法离不开统计学,那什么是统计学,它是否就是概率论的应用,是否是数学的一个分支?这些概念和关系很多人是一知半解。
统计学严格来讲是一门独立的科学,它是关于收集、分析、解释、陈述数据的科学。统计学的数学基础是概率论,在分析和解释数据时,要大量地使用概率论和其它数学工具,同时它也是概率论最大的用武之地。
但是,大家心里要清楚,统计学远不只是设计一个样本,然后用加减乘除算算概率那么单纯,它里面还有很多非数学的工作,比如如何陈述数据让大家接受你的结论,这也属于统计学的范畴。也正是为了这个目的,人们才发明了各种统计图表,因为人类对图表的敏感度要远远高于对数字的敏感度。
在统计学中,还专门有一个分支,叫做描述统计学,就是研究如何让统计的结果更有说服力。除此之外,统计学还有很多问题,比如如何保存和整理数据,其实也和数学没有太多的关系。
如果说概率论最初是赌徒们所研究的雕虫小技,登不上大雅之堂的话,那么统计学从一开始就是高大上的学问。统计学的英语单词statistics是源于拉丁语“国会”或者“国民政治家”的意思,最早是特指对国家的数据进行分析的学问。
18世纪德国的学者戈特弗里德·阿亨瓦尔(Gottfried Achenwall)发明了德语版的这个词,特指“研究国家的科学”,即根据数据了解情况,制定国策。后来这个词被翻译成各国的语言,但是含义却远远超出了原来特指研究国家的科学这一层含义。
统计学研究的目的,通常是从大量数据寻找规律性,不同因素之间的相关性,以及可能存在的因果关系。不过,后一种关系,即因果关系通常未必能找到,这一点我们后面要专门讲。在找到相应的规律之后,我们就可以利用它来建立数学模型,预估未来数据的发展和变化。
比如我们前面讲到,可以统计出汉语词之间的关联性,也就是条件概率,这样,如果遇到像“天气”和“田七”,“北京”和“背景”这样的同音近音词,我们就可以通过上下文,计算它们的条件概率,从而在语音识别,或者拼音输入中,确定到底是哪一个词。
比如,前面一个词是“中药”,我们就知道后面是“田七”的可能性比“天气”大。而见到“天气”这个词,我们也就知道前面是“北京”比“背景”的可能性大。这就是统计的目的。
数据没用好的第一个原因:
近年来,由于数据量的剧增,一个企业要是不谈大数据都不好意思,但是你可能发现了,大数据谈了十年之后,也用了很多年,并非所有使用大数据的企业都在受益,很多企业使用它的效果不明显。这里面主要的原因是使用方法不对。
我们知道,今天使用大数据,主要是为了寻找一些变量之间的关联性,从而达到准确预测的目的。但是在实际问题中找准相关联的两个变量这件事本身并不容易。在前面讲到的利用前一个词预测后一个词,两个相关的变量就是前面的词和后面的词,当然也可以反过来。
今天我们知道可以这么使用之后,看似很容易想到,但是在语音识别诞生后的20多年里,科学家们并没有想到这个办法。因此虽然今天数据量不再是问题,但如何选定可能有关联的变量,则体现了人类的智慧。
特别是,当我们研究人类行为的时候,那些可能影响我们行为的客观变量或者说条件,更是不容易找到,即使找到,我们的行为又可能反过来改变条件。这里面最出名的例子就是上个世纪初,心理学家们在美国西屋电气公司位于霍桑市的工厂所进行的霍桑实验了。
霍桑实验的最初目的,是找到一些影响工人生产效率的因素(变量),然后加以改进,以提高生产率。心理学家们考虑的因素包括薪酬、照明条件、工间休息等等。
他们通过大量的统计发现,这些因素似乎和劳动效率有关,于是厂家就改善了相应的条件,比如增加照明亮度。但是,在这些改进中,一些因素并未达到对生产效率的明显提升,和想象的不一样,另一些改进虽然开始起到了一定的效果,但是很快又回到初始的状况。
对于这个现象,心理学家们后来进行了很多研究,比如发现当时很多实验并不是双盲的,那些对比在今天看来没有太多统计的意义,再比如当实验的设计者提高照明亮度开始测试生产效率时,工人似乎提高了效率,但这不是照明引起的,而是因为他们觉得自己被围观了,因此特别有干劲。
这一类的情况在早期的药品有效性的试验中也特别明显,只要病人从医生的口中觉察到他所服用的是真药而不是安慰剂,效果就好,但这无法判定是药的原因,还是心理作用。于是就有了“霍桑效应”这个名词,它是指当被观察者知道自己成为被观察对象而改变行为倾向的反应。
霍桑效应不仅体现在个人身上,也体现为群体的反应。比如一个国家将原本3%的GDP增长,按照5%公布于众,民众对经济前景有了信心,开始增加消费和扩大生产,反而可能导致GDP的上涨。
反过来,城市道路的拥堵信息一发布并显示在地图上之后,大家为了避免拥堵,都挤到地图上显示的绿色的道路中,反而造成了往哪里走,哪里就堵的死循环。此外,今天很多推荐系统见你读什么,买什么,就继续推荐什么,但你一点兴趣也没有,这就是陷入了霍桑效应的陷阱。
数据没用好的第二个原因:
今天大家在使用大数据时失效的另一个原因,就是低估了数据的稀疏性所带来的副作用。我们在前面讲了,利用统计得到结论,需要足够的统计量。今天看似大数据的数据量是足够的,但是如果你把它分为了很多维度,其实还是很稀疏的。
我们就以利用上下文预测后面的单词为例来说明,假如我们使用两个词Y和Z来预测第三个词X,汉语的词汇量按照10万来计算,这看上去并不是一个复杂的数学模型,但是这个统计模型有1000万亿个条件概率值需要估算,整个互联网上的内容都翻译成中文,文字的总长度也超不过100万亿个词,因此,数据量显然是不够的。
数据没用好的第三个原因:
大数据方法失效的第三个原因,就是把原因和结果搞反了。我们在前面介绍条件概率时讲到,X和Y这两个随机变量,你既可以把X看成是Y的条件,也可以反过来看。当你拿到原始数据,看到X和Y同时出现时,你其实很难搞清楚谁是原因,谁是结果。
事实上很多研究人文社会科学的学者也经常把原因和结果搞反,因为你会同时读到把X当作Y原因的论著,以及把Y当作X原因的论著,它们甚至发表在同一本期刊上。
今天很多公司在使用大数据时,完全不去分析因果关系。比如我上网寻找过酒店,并非接下来就是要买飞机票,而是可能有一张用里程兑现的飞机票要到期了,必须用掉。从找酒店推断出要买机票就是搞反了因果关系。
想用好数据的五个步骤:
从这些例子可以看出,利用统计结果指导工作,远不像想象的那么容易。不过,使用统计的方法解决问题,通常还是有章可循的,我把它总结成下面五个步骤:
1.设立研究目标,比如我们利用数据来证实什么假说,或者得到什么样的相关性。有了目标,才能够避免盲目使用数据的情况,并且能够有意识地过滤数据中的噪音。
通常,使用数据驱动的方法除了要准备一个待证实的假说,还要准备一个可对比的备用假说,比如你在证实药品有效性时,备用的假说就是安慰剂同样有效。统计的目的就是确认你的假说,同时否定掉备用假说。比如你要证明个人信息对推荐机票有效,就要证明不使用个人信息时,推荐机票无效,而不是同样有效。
2.设计实验,选取数据。这些数据需要能够方便量化处理。比如你要识别图像,就需要将图像信息数字化,便于计算机处理。
3.根据实验方案进行统计和实验,分析方差。很多人只是关注结果的均值,而忽略方差。比如你要想了解一种投资回报是否更高,光看回报率是不够的,还要衡量风险,就是方差。
4.通过分析进一步了解数据,提出新假说。很多时候,统计的结果不是证明你的假说有效,而是证明它无效,这时就要提出新假说,重新验证。
5.使用研究结果。这包括将你的统计结果用于产品,也包括报告给别人。对于后者来讲,怎么报告其实很有讲究。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。