映射:数据究竟是什么?
课程的前6讲,我们根本没有讲什么是数据,只是调动你先天的数字感,体会怎么使用数据去思考问题和解决问题。这一讲,我们就正式面对这一模块最核心的问题——数据究竟是什么?
这个问题听起来再简单不过了。但如果你去问一个数据分析师,大概率的,他都很难回答这个问题。逼急了他可能会说,数据就是电子表格里的数字吧。如果你去看数据分析的专著,书里也基本上不回答这个问题。
为什么大家都说不清楚或者避而不谈呢?因为“数据”这个词代表的含义过于丰富,不同层次的用法混杂在一起,以至于造成了混乱。
这一讲,我们就直面这个问题,通过三个要点正本清源地把这些混乱梳理一下。
数据是对现实世界的映射
首先,从数据和实体的关系来看,数据是对现实世界实体的映射。
比如你照镜子,镜子里出现了你美丽的脸庞,镜子中的脸跟你的脸是一种一一对应的关系。这就叫“映射”。
不过,镜子中的脸仅仅是光的虚像,既不是实体,也不是数据。但如果用手机拍照,那就不一样了。手机中的摄影系统会记录你的长相,并且转换成数字,最终变成一份文件。这份文件中的数据与你的脸是一一对应的。数据的来源就是这样的。
但是我们再进一步,这些数据真的映射了你的脸的全部吗?仔细想想,并没有。这份数据文件记录的是在当初的拍照条件下你的脸的信息。如果拍照的条件变了,记录下来的数据当然就不一样了。
我们再进一步,限定了条件,就在拍摄的那一刻,照片记录的就是你脸的全部吗?还不是。你的脸是由细胞组成的,细胞是由分子组成的,分子又是由原子组成的。这些组织又是有活性的,细胞在进行新陈代谢,血液系统在有条不紊地工作。所有这一切,这份数据文件中都没有。
所以,这些数据是映射实体而来的,但它们仅仅代表了实体的一部分信息。如果你想知道其他的信息,就要做其他的映射。比如,看冠心病就要用CT,看心功能要用超声,检查心肌病变要用核磁。这里,CT、超声、核磁,都是映射实体的方式,都能得到同一个实体不同维度的信息。
这也就说明,获取数据的方法决定了我们能获取什么数据。现实世界和数字世界是两个不同的世界,它们之间通过映射建立关联。
以上,就是关于“数据是什么”这个问题的第一点认知——从实体和数据的关系来看,数据是在某种方法之下对实体的数字化表达。
数据需要元数据来说明
接下来,我们说第二点,我们需要元数据来说明数据。
我们来看一下数字音乐。它看起来就是一个音频文档,用播放器一播放,我们就能听到一段美妙的声音。
这里的问题是,除了声音本身,你还能知道什么呢?这是你婚礼上的伴奏?还是女儿的第一次演出?还是肖邦的亲自弹奏?不知道。音频本身并不能说明自己是谁、自已从哪里来。
这时候,我们就需要用到一个新的概念——元数据。简单地说,元数据就是对某个对象做出的陈述。
比如,这段音乐是2020年11月在北京国家大剧院演出的实况,她弹奏的是钢琴。这就是陈述。当然,这种自然语言式的备注不便于处理和交流,实际生活中大家使用的元数据是按照国际规则生成的,看起来很结构化。比如,“时间:2020年10月;地点:北京国家大剧院;乐器:钢琴……”
我再举一个真实的例子你感受一下。咱们平时都听音乐,请问描写一段音乐各个特征的元数据是怎么生成的呢?
美国有一款音乐软件潘多拉(Pandora),相当于我们的QQ音乐。它是这么做的:有些特征客观性很强,比如音调、速度、每分钟节拍数、歌手性别等,这些很容易确定;而另一些特征,比如声音特点、乐器失真程度等,主观性特别强,这些特征怎么确定呢?请一组音乐家,让他们对这些特征进行评估,然后再处理合成。潘多拉用了多少元数据来描写一首音乐呢?大约450个。
这还不是最惊讶的,据说,Google描述一张照片的元数据多达2万多个。
元数据听起来挺普通的,但实际上非常厉害。
不知道你还记得吗?2013年,美国出了一件大事。有个叫斯诺登的前美国中情局工作人员,爆料说美国有一个“棱镜计划”在收集所有的通话记录。这还了得!这让高度关注个人隐私的美国人大惊失色,异常愤怒。结果查下来,发现美国情报部门并没有收集通话的内容,收集的只是通话的元数据,就是说明通话在何时、何地、通了多少时间那些记录。
正当美国人长舒一口气,美国媒体又跑出来吓唬人,说别看这些元数据本身看起来人畜无害,但其实它们能得出各种信息。这下,美国人又不淡定了。
举个例子:如果你是一个公众人物,那我就在公开媒体上记录你的行踪。一旦我收集到了你去过的4个地方和4个时间,我就能知道你的手机号码。知道了你的手机号码,在网上跟你手机号码绑定的所有信息就都知道了。你说元数据厉害不厉害?
当然,这个前提是可以动用各种数据库,有这样权限的人并不多,所以你也不用担心。
要把数据、数据容器和数据蕴含的信息分开
接下来,我们说第三点,要把数据、数据容器和数据蕴含的信息分开。
为了理解这一点,你需要记住一个模型——葡萄酒模型。葡萄酒这个东西,其实可以分成四件事:第一,酒本身;第二,酒瓶;第三,酒标,就是贴在酒瓶上的标签;第四,喝进去的感觉。
做个类比的话,酒本身就是数据,酒瓶就是数据容器,酒标就相当于元数据。为什么这么说呢?咱们拆解一下这句话。
首先,酒就是数据,这很好理解吧?不多说了。
其次,酒标上面有品牌名字、年份、产地等,都是在说明这个酒某一方面的特征,所以它就相当于元数据。
最后,我们要重点说一下数据容器。和很多东西一样,数据也需要一个载体来存放。音频文档是一种载体,Excel电子表格是另一种载体。听起来很简单,但很多时候我们往往会把载体,也就是数据容器,当成数据本身。比如书本,那些纸张是数据吗?其实不是,纸张只是数据容器,纸上的文字才是数据。
混淆数据和数据容器,在口语表达中当然没有问题,但是知道它们的区别才是数据思维好的表现。
数据就好比是葡萄酒;元数据记录了数据的各种关键信息,好比是葡萄酒的酒标;而数据容器是用来装数据的,好比是酒瓶。这个对应关系明白了,那么一瓶葡萄酒的第四部分——喝下去的感觉,又应该怎么理解呢?它对应数据的什么呢?我把它比喻成数据里蕴含的信息。
举个例子。我在网上看到,有位数据分析师分析了华语唱作人的相关数据,发表了一篇文章叫《华语唱作人词汇量大赏》。什么是唱作人呢?就是指那些创作型歌手,演唱之外,还要自己作曲、填词和制作的人。
这位数据分析师对55位著名华语唱作人自己写的歌词进行了用词的频率统计,然后做了一个排行榜。为了公平,每位唱作人都抽取1万字,去除重复的词汇之后再进行统计。这样就知道每一位唱作人常用的词汇是什么了。比如周杰伦,他的常用词汇前三名是“爱”“走”和“我会”。
这还没有结束。分析师还训练了一个模型来感知歌词的情绪。比如,“拆开,我的心随你看,满满的都是爱”,被认为是积极情绪;“如果以后和好了,看到你朋友不是很尴尬”,就被定性为消极情绪。
问题来了,词汇量高的歌手是谁呢?
第一名是周延。在一万个字里,他不重复地用了2282个词。他的常用词汇前三名是“万岁”“喊”和“做”。歌词的情绪67%是积极的,33%是消极的。
我们熟悉的总上不了头条的汪峰老师呢?词汇量是1039个,在55位唱作人里属于很低的那一档。常用词汇的前三名是“爱”“妈妈”和“孤独”。歌词的情绪呢?63%是积极的,37%是消极的。
我想说的是,这些信息都是被人挖掘的、被人发现的,这些唱作人的创作数据就在那里,并没有自动说“我有这些信息,来使用我吧”,没有。这些数据中蕴含什么信息,是数据使用者的创造,甚至可以说,是在数据使用者与数据之间的互动中出现的。
换句话说,数据仅仅是潜在的信息提供者,处于一种未经处理的原始状态。只有找到各种描写它们特征的办法,你才能让数据开口说话。
到这里,我们感知数据的学习就可以结束了。从下一讲,我们进入课程的新模块——收集数据。
划重点
对于“数据究竟是什么”这个问题,我们可以从三个方面来理解:
1. 数据是对现实世界实体的映射,是在某种方法之下对实体的数字化表达。
2. 数据需要元数据来说明、描写和记录它的关键特征。
3. 不要把数据容器和数据本身混淆,也不要以为数据自动蕴含信息。数据中蕴含什么信息,需要有数据思维的人专门处理。
在线咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。

