大数据:到底有什么不一样?
通过前几讲,你应该发现了,收集数据的方法很多,而且各有侧重。
要是测量对象之间差异不大,同质性比较高,比如电子,就可以随便找。要是对象内部差异很大,又不能全部测量,就要抽样,用样本来推断总体。如果想了解人的内部状态,就必须用问卷。如果自变量和无关变量都可以控制得非常好,实验法就特别好使,对解释因果关系特别有用。
经过这么一推演,人类关于收集数据的几百年的经验,你就都掌握了。
大数据对传统的冲击
这一切虽然都没有改变,但是村里来了一个陌生人。这个陌生人就是,大数据。为什么是陌生人呢?因为大数据的出现,冲击了上面那段人类沉淀了几百年的经验。
举个例子你感受一下:
某所大学每年都会有1到2名同学自杀。校方需要及早发现有问题苗头的同学,及时重点关注,必要时采取干预措施。但问题是,怎么找到需要重点关注的同学呢?
传统的方法无外乎两种:
一种是利用行政系统。
学校布置任务给各学院,各学院再布置给各系、各研究所,各系、各研究所再布置给班级辅导员,班级辅导员再布置给班干部。
但是,因为师生们缺乏足够的心理学训练,所以这种方式只能得到大量的假警报。一方面,把很多正常的情绪波动放大到需要重点关注的地步,不过激就担心会有责任。另一方面,很多真正有抑郁倾向的同学又不会被认为有问题。
另一种方式更高级一点,就是建立预警系统。
预警系统就是搞一个复杂的指标体系,拉一个大名单。这些同学可能有问题,被称为“预警对象”。然后对个人状态、事件进行监测,估计他们某个状态和经历的某些事件,比如考试不及格、失恋等会导致自杀的概率。如果概率比较大,系统就发出预警,指令相关老师去做工作。
这种方式听起来很美好,但其实很难实施。以什么标准划定一些人而不是另一些人进入这个名单呢?个人的状态靠什么监控呢?进入名单的同学会怎么想?会不会被歧视呢?
你发现没有,传统方法的效果好像都不太好。问卷吧?那些抑郁的同学肯定不会说实话;抽样或者实验吧?也没办法帮我们找到需要提前干预的同学。怎么办呢?
用大数据。
有了大数据思维就可以这样做:潜在自杀者的重要特征就是没有朋友。如果一位同学长时间不与人沟通,那他就需要重点关注。抓住这个关键特征,问题就转化成,如何找到这些孤独的同学?
这所学校找到了一个办法——观察一个同学的饭卡刷卡时间与同班同学的饭卡刷卡时间是不是先后出现。关系好的同学一起吃饭,他们的饭卡刷卡时间会挨在一起。如果是一位正常的同学,他在一个月内一定有很多次与同班同学的刷卡记录紧挨着。这个次数除以吃饭的总次数,就是这位同学与同班同学一起吃饭的概率。如果这个概率很低,那他就很可能是一位孤独者。
你看,这个做事的方式是不是就不一样了?
大数据的优势
从这个案例里,我们可以知道大数据的什么特点呢?至少有这么几个优势:
优势一:海量性
数据量大,就可以发现小数据很难发现的问题。孤独者在大学生里是很少的,但由于数据量大,稀有的事件也足够多,因此也能被发现。
优势二:持续性
饭卡的数据是连续不断的,一直源源不断地积累,就能让我们观察到学生行为随时间的变化。这也是传统的数据收集方法很难做到的。
通过上面的案例我们就能知道,如果一个同学从某月某日开始,吃饭的同伴行为和刚开学时不一样了,从一个正常的同学变成了一个孤独的同学,那这时候就要发出警报,请辅导员看看,他是因为失恋了想减肥于是不去食堂吃饭了,还是真的抑郁了。
优势三:不反应性
反应性是指,如果一个人知道有人在研究他或者有人在监督他,他就会做出改变。而用大数据,这个问题就基本不存在。因为同学压根就不知道学校会用饭卡数据观察自己,也就不会改变自己的行为。
再举一个例子。同样是使用学生使用饭卡的数据,另一家大学的用法就不同:
这家大学筛选出在校园食堂一个月吃60顿以上的饭,并且消费金额在420元以内的同学。系统自动把这些同学列为贫困生,不需要他们主动申请,就悄悄地把补助金充到他们的饭卡里。校方认为,这么做比较人性化,照顾了贫困生的尊严。
大数据就在那里,不管你有什么创意,大数据都是你的支持者。通过上面两个例子,希望你能感受到大数据这个陌生人做事的不同风格。
使用大数据时要避开的坑
当然,大数据虽好,也有自己的问题,下面我们就说几个要着重注意的点。
第一,大数据里的数据,绝大部分都不是为了我们的目的收集的,而是在例行的业务活动中自动产生的。因此,如果想利用这些数据,就必须理解这些数据是怎么产生的,搞清楚这些数据的精确含义。
比如,一组命名为“客户”的数据,具体含义是什么呢?在业务系统中,可能是和企业有过各种联系的人;而在财务系统中,可能是实际与企业进行过交易的人。
更重要的是,你要认识到,大数据系统中的行为很多都不是自动出现的,而是在系统设计的目标下出现的。
举个最简单的例子,有一家全球著名的社交媒体,如果你统计就会发现,其中很多用户的朋友数量都是20个。难道用户都喜欢刚刚好交20个朋友吗?其实,这是这家社交媒体系统PUSH的结果。如果你的朋友数量不到20个,系统就鼓励你加更多的朋友;一旦你达到了20个朋友,系统就不PUSH你了。这就是算法干扰。
顺便说一下,很多大数据其实都是二手数据,但是二手数据不只是大数据。二手数据还有好多来源,例如其他科学研究产生的数据,公开的共享的数据库、政府有关部门发布的数据等。
如果你会使用数据爬虫,就可以抓取很多数据为你所用。当然,这么做必须合法,或者得到对方的授权。
第二,不要低估数据清洗的重要性、难度和成本。
数据清洗,特指再次利用大数据做数据准备的时候要做的工作。大数据在收集的时候会有各种污染,如果不清洗就处理,得出的结论就不可靠。
举个例子:
美国加利福尼亚州有一所小学,按照法律规定上报学生违纪的记录。这所小学共有学生654名,但是在2010-2011学年,一年就报告了306次禁止学生携带枪支进校的记录。要知道,此前五年,这个学校每年由于各种原因需要上报的事件总数也没有超过131起。很显然,这次的统计数据有问题,有部分数据被污染了。
当时,记者拿这个数字去问当地教育部门的负责人,质问他怎么解释这个错误的发生。像不像我们的《焦点访谈》?结果,当地县市级的教育负责人说,我们没有时间检查数据的准确性;州一级的负责人则说,我们并没有对数据再次进行独立检查的机制,应该由当地学区负责上报数据的准确性。你看,他们就这样把球踢来踢去,互相甩锅。
这个案例说明了数据污染的一个来源——生产数据的机构只管生产,不搞品控,没有人对数据的准确性负责。
当然,还有更多的数据污染的问题,时间有限,就不展开了。
总之,清洗数据是非常费时费钱的,有人估计,它的花费经常占到项目成本的80%。真是“天下没有免费的午餐”,虽然省去了主动收集数据的成本,但是清洗数据并不是免费的。
第三,使用大数据时,要理解大数据的代表性问题。
很多人都会有一个误解,以为大数据数据量大,它的代表性就好。但是,放在历史长河里,不管大数据多大,它都只是一个样本。
比如,支付宝的支付行为数据,数据量够大吧?但是横向方面,还有银行卡支付、现金支付、数字货币等围追堵截;纵向方面,支付宝的数据最多也才持续一二十年。这种情况下,我们能用支付宝的数据推断中国人整体的支付行为特征吗?显然不能。
这也说明,大数据虽然好用,但并没有改变抽样的原理和用处。但是,大数据因为数据量大,也有自己独特的价值。
举个例子:
两位科学家对约25000名英国男性医生进行了多年的追踪,发现了一个很强的“暴露–反应关系”——抽烟越多的人,死于肺癌的可能性就越大。虽然根据这组男性医生的情况,估算所有英国人的肺癌患病率是不明智的,但样本内的比较,也就是比较这25000名医生里吸烟与不吸烟的情况,也能为证明“吸烟致癌”提供证据。
你看,区别就在“样本内比较”还是“把结果推及总体”。做样本内比较或者分析个体的行为,大数据很擅长。但是把结论推及总体,大数据经常不能支持这个任务。
划重点
1. 大数据带来了新的思维方式和利用方式,不仅冲击了传统的数据收集方式,也极大地拓展了我们的能力,我们必须与时俱进。
2. 大数据拥有海量性、持续性和不反应性等优势,但使用时也有很多要避开的坑。
3. 善于把大数据和小数据相结合,才是我们利用数据的最 高境界。
点击咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。
