抽样:怎么确保样本能推断总体?
有了前面两讲的铺垫,我们就可以学习怎么收集数据了。收集数据,第一件事就是要考虑一个问题——找谁收集数据?
这个问题的答案,就是抽样。提到抽样,你肯定不陌生,就是从一大堆东西中挑选出一小部分样本,然后通过样本的情况对总体做定量描述。通俗地说,就是以小见大。
问题自然就来了,直接调查总体不行吗?为什么要抽样呢?
是因为总体太大,调查不过来吗?是,也不全是。是因为抽样出结论的速度更快吗?是,也不全是。是因为抽样的成本低吗?是,也不全是。或者按照数据思维课的路数,答案都是,没必要。
如果用2000人就能知道2亿人的情况,省事又省钱,还调查2亿人干嘛呢?土豪请随意吗?不,那是土豪没文化,没本事,没有数据思维。
怎么才能做到一个好的抽样呢?你记住一件事就行——样本要对总体有代表性。抽样时我们做的所有工作,都是这句话的落地。
必须使用概率样本
为了加深你的印象,我举一个经典案例。这个案例太经典了,所有讲抽样的书都会提到它,就像学唐诗必学“床前明月光”那样。
它就是美国《文学文摘》预测总统大选的故事,故事是这样的:
1936年,编辑部发出了1000万张问卷,回收了240万份,而当时的选民总数才4000万。因此,编辑部在发布预测结果的时候,还假惺惺地谦虚了一把,说“我们不能使用绝对无误这个词,我们十分清楚模拟选举的局限性”,意思就是,“也就跟你们客气客气,我们才不会错”。结果呢?他们不但错了,连方向都是反的。
那么,《文学文摘》错在哪里了呢?
原来,杂志社的样本绝大部分来自于家里有电话或者有汽车的家庭,而1936年的美国,刚走出经济大萧条。这时候家里有电话、汽车的都是富人。所以,尽管样本量高达240万,但是穷人不在里面,而穷人的数量又比富人多多了,因此,这个样本就没法代表全国选民。
你看,样本量大不会自动就有代表性。你征集了200万的签名,也不一定就代表民意。
怎么才有代表性呢?很简单,当样本的各种特征大体接近总体的特征的时候,样本就具有代表性。
这时候,另一个经典案例出场了。同样是在1936年,《文学文摘》倒下去,盖洛普调查公司站了起来,因为总统大选预测正确而一战成名。
盖洛普做对了什么呢?
它使用了配额样本,就是根据总体的情况分配样本数量。比如,总体中男女比例是7比3,那么如果样本总量是100人的话,男生就分配70人,女生分配30人。盖洛普凭借这个方法,连续预测成功。
不过,事不过三,1948年,盖洛普第四次预测总统大选时也被打脸了。
为什么呢?因为配额样本毕竟不是概率样本。到这里,关于抽样,你要掌握的第一个知识点就出现了——只有概率样本才能确保全面反映总体情况。为了保证代表性,必须使用概率样本。
概率样本的意思是说,每一个样本都要按照事先确定的概率规则选取。听起来,配额样本和概率样本有点像,但其实不一样。我举个例子,你就明白其中的差别了。
比如,抽中一个男生宿舍,宿舍一共有6个学生,要调查其中1个学生。配额样本的做法是,找这个宿舍里任何1个学生都可以。而概率样本的做法是,随机地确定1个学生。怎么随机确定呢?先给这6个学生编号,123456,然后扔骰子。一扔,5号。那好,只能找5号学生。你说5号学生去图书馆了,不在。那不行,喊他回来,别的同学不能代替。当然,这里扔骰子只是个比喻,实际上不是这么做的。
由于有数学上的保证,概率样本确保可以推断总体的情况。但配额样本好不好使,就要看运气了,有些条件下还可以,另一些条件下就不行。
就拿1948年盖洛普被打脸这个案例来说吧。当时,盖洛普配额的依据是美国1940年的人口普查数据。但是,二战结束了,大量农村人口涌入城市,改变了人口结构,1940年的配额方案已经代表不了1948年的选民情况了。于是,和《文学文摘》一样,盖洛普也倒在了代表性这个坑里。
不过,有一点要注意:样本代表性,专指与研究目的相关的维度对总体有代表性,而不是对总体全面的代表性。
比如一片森林,你要是想估计木材的总储量,那树木的品种就不重要,而树的大小就重要。这时候,样本要对大树小树有好的代表性,是杨树还是松树就不必太关心了。
根据需求确定样本量
现在我们知道选择样本原则了,新问题又出现了——要选择多少样本呢?这个主要看你的需求。
你猜,盖洛普预测美国总统大选要抽样多少人?答案是,2000人。
而且专家还会告诉你,增加样本量,抽2万人,20万人,200万人,对预测总统大选来说,和2000人差不多,精度不会有大的提高。因为样本量和误差水平之间不是线性关系,而是有两个阶段——刚开始是随着样本量的增加,误差水平减少;但超过一个范围后,样本量的增加就很少导致误差的减少了。
我再举一个中国的例子。电视节目收视率是投放广告的重要依据。每年的电视广告总盘子得有几百亿。既然这么重要,用来收集这个数据的全国网用了多少样本户呢?你先猜。猜之前我告诉你,全国电视人口的数量大约是13亿,比美国人口还要多差不多10亿。
答案来了,样本户是10400 。
注意,这是户数,不是人数。具体人数官网上没有,但我们已经学过估算了,你可以估算一下。按一户平均有4口人计算,一万户就是4万人,样本量就是3万到4万人之间。
为什么预测总统大选只需要2000人,而调查收视率却要3万多人呢?
因为需求不一样。选美国总统,大部分情况是二选一,不是民主党就是共和党,这种情况对样本量的要求不大。但电视节目不行,比如一些深夜的节目,本来看的人就不多,需要调查很多人才能体现真实的收视率,所以样本量就需要很大。
你看这次辉瑞制药公司做的新冠疫苗三期临床试验,受试者高达4.3万人。就是因为疫苗涉及生命安全,对样本的代表性要求特别高,因此就需要更大的样本量。
关于样本量,理解这些就足够了。其实,确定样本量是一个技术活儿,因为需求还有很多角度,因此要考虑的因素很多,有时候需要艰难地权衡,所以重大项目还是聘请专家吧。
非概率样本应对复杂情况
现实是复杂的,概率样本固然靠谱,但很多情况下我们都做不了概率样本,怎么办呢?
这就是我们要掌握的第三个知识点——可以用非概率样本应对复杂情况。
比如,我们想了解同性恋人群的情况,可这是一个非常敏感的问题,很多人不会告诉你实情。怎么办呢?可以试试滚雪球抽样。先找到一个同性恋者,再请这个同性恋者介绍其他的同性恋者,这样循环下去,就像滚雪球那样,越滚越大,最后可以得到足够多的样本量。
非概率抽样有很多形式,这里就不一一介绍了。非概率样本最大的问题就是,不能确保样本能代表总体的情况,所以使用非概率样本的结论时一定要慎重。
这里补充一下,近年来,一些科学家也玩儿起了非概率样本,让经过处理的非概率样本也具备了推论总体的能力。
比如有一个研究,受访者都是来自Xbox的美国用户,能用这个样本预测2012年的总统大选吗?Xbox是一款微软出品的游戏机。可玩儿游戏机的大部分都是男青年,怎么能代表美国选民呢?但是,研究者使用了事后分层和分层回归技术,发现预测效果很不错。
所以,艺高才能胆大,要是自己技艺有限,还是请专家咨询比较好。
抽样结果是个有限制的范围
选择了样本、确定好了样本量,调查也完成了,怎么解释调查的结果呢?
这就是我们要掌握的第四个知识点——抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值。
举个例子,随机抽样2000名中国人,女性比例是49%,我们可以说中国人的性别比例是女性占49%吗?
不能。没有数据思维的人最容易犯的错误,就是用样本的结果直接代表总体的特征。真正的抽样调查的结论是这样一个句式,“在什么置信度水平下,总体的特征值在什么范围内”。上面那个例子,结论的正确表述是,“在95%的置信度之下,中国人的女性比例在46.8%到51.2%之间”。
置信度是表达你对结论的信心,95%的置信度就是100次可能有5次错误。这是一个行业通用标准,我们就不展开了。
而范围则隐含了一个误差水平的设定,在上面的例子里,误差就是正负2.2个百分点。
再强调一遍,不要把抽样结果直接用在总体上,真正的结果是一个带限制条件的范围。能想到了解这个限制条件,是具备好的数据思维的表现。
说完了抽样,下一讲,我们说说另一个重要的收集数据的方法——问卷。
划重点
1. 只有概率样本才能确保全面反映总体的情况。
2. 现实工作中,非概率样本也可以帮我们应对一些复杂的、概率样本难以覆盖的情况。
3. 抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值。
在线咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

