最近几年有一个行业发展迅猛,从新兴变成主流,有相当大的需求及职业缺口,就是大数据。数据科学是一门涉及到统计,数据分析及其相关方法的科学,借用数据去“理解和分析实际现象”。数据科学使用到数学、统计、信息科学和计算机科学等各个学科的技术和理论,特别是以下分支:机器学习, 分类, 聚类分析,数据挖掘,数据库和可视化。大多数院校的Data Science属于STEM学科。
今天详细来介绍一个较早开设数据科学项目(下简称DS)的院校哥伦比亚大学。
哥大的数据科学项目全称为Master of Science in Data Science,于2014年秋季新开设的。本课程由文理学院统计系、工程学院与应用科学学院计算机科学系、工业工程与运筹学系联合开办。学制时长为1.5年,需要修满共计30个学分,每个学期安排4门课(每门3学分),最后一学期为2门课,其中7门为必修课,3门为选修课。课程结合了计算机科学与统计等多个领域专业范围,毕业无需提交论文,设计初衷更倾向于就业。
整个DS项目最为核心的就是运用数学统计、计算机的知识去分析数据,所以这个项目的课程设置就是围绕这两个方向展开学习。其中计算机科学方面授课的主要内容是算法还有并行计算系统,而统计的部分主要学习的是机器学习和统计推断的内容。除了这些之外,项目中还会有exploratory data analysis 以及visualization的部分,所以说这门课的授课内容涵盖面还是很广的。
如下图所示为哥大DS项目必修CS与统计课程
必修课:
STAT GR5701 Probability and Statistics for Data Science
本课程涵盖以下主题: 数据科学中使用的概率论和推论统计学的基本原理,概率模型,随机变量,有用的分布,期望,大数定律,中心极限定理,推论统计学,点和置信区间估计,假设检验,线性回归。
STAT GR5702 Exploratory Data
Analysis and Visualization
需要编程,数据可视化基础。
STAT GR5703 Statistical Inference and Modeling
课程涵盖推论统计学和测试的基本原理,并介绍统计建模。本课程的前半部分将集中于推断和测试,涵盖的主题包括最大似然估计、假设检验、似然比检验、贝叶斯推断等。本课程的后半部分将通过介绍线性回归模型、广义线性回归模型、非参数回归和统计计算来介绍统计建模。在整个课程中,真实数据的例子将被用于课堂讨论和家庭作业问题。简而言之,这门课难度比较大,偏理论,作业也比较难,会有大量的证明题需要完成。
COMS W4121 Computer System for Data Science
学生须有扎实的 python 编程经验或相当的编程语言。本课程的目的是为那些不一定具有数据库、操作系统或分布式系统背景的学生开设。这门课程的目的是让从事大数据工作的数据科学家和工程师更好地理解他们将要使用的系统是如何构建的。它还将使他们更好地理解在大规模使用和部署这些系统时的实际性能、可用性和可伸缩性挑战。在本课程中,我们将介绍设计这些系统的基本思想,同时侧重于学生在工作或研究中可能遇到的特定的流行系统。
COMS W4721 Machine Learning for Data Science
机器学习的研究生入门课程。本课程涵盖监督式学习的基本统计原理,以及一些常用的算法范例。如果时间允许的话,还可以讨论一些额外的话题,如表征学习和在线学习。
CSOR W4246 Algorithms for Data Science
主要就是CS算法的学习,实际上就是CS课程的简易版。
除了以上所说的必修课,DS的选修课也是值得一提的。哥伦比亚大学在选修课方面是十分自由的,我们可以选修任何其他专业的课程,只要得到了advisor的批准就可以。说完了必修课的部分,在这里我建议那些除了学习CS相关课程之外的同学,一定要多关注选修课的部分,大家也可以多和老师进行沟通,确保可以顺利选课。这边的选修课种类很丰富,无论是想要挑战自己学习硬核的课程,还是想要选相对轻松的课程减轻平时学习的工作量都是可行的,大家只要结合自己的需要进行选课就可以了。
数据科学是对数据的分析和运用,所以对学生本科背景有一定要求,本项目(见上官网截图)就有要求修过一些相关的数学(如线性代数、概率论等)、计算机编程语言(如JAVA,C语言,Python)、统计(SAS,R)等课程。
数据科学项目主要是面向职业培训、侧重工业界需求,所以设置博士学位的学校比较少。为了符合工业界需求,专门的数据科学项目课程都很实际,侧重培养学生分析数据、解决问题的实际动手能力,课程一般不涉及理论知识。
数据科学虽然是最近才兴起的概念,但是这个概念其实并不是完全新奇,这个方向的项目主要就是学习统计及计算机等方面的知识,从而更好地应对数据分析处理相关的工作。DS是一个十分综合的项目,就业前景非常好。无论国内还是美国,DS 学生未来就业都很有竞争力。
想详细了解院校项目设置,可参考院校官网:https://datascience.columbia.edu/education/programs/m-s-in-data-science/
>>在线咨询