二、 大数据与数据科学培养的主要人才
大数据与数据科学主要培养大数据应用分析师、大数据系统工程师、大数据算法研究员几大类,每个大类下又可以根据具体的岗位职责做一定的细分,大致可以分为如下这些:
1、 大数据应用分析师:产品、行业应用、解决方案、数据分析、创新
2、 大数据系统工程师:系统、架构、开发、维护、管理
3、 大数据算法研究员:算法实现/调优、新理论、新结构/新算法、方向/趋势
三、 大数据与数据科学的整体课程体系
数学/统计理论:微积分、线性代数、概率论、数理统计、统计学习
计算科学:计算机系统、编程语言、数据结构、信息系统架构(CS/BS等)
数据系统:分布式理论、Hadoop/Spark生态、数据库/数据仓库
模型分析:机器学习理论、优化建模、模式识别、知识表示/推理、可视化分析
行业应用:商务智能、智能金融、供应链分析、城市规划等
数据伦理:大数据管理与创新、大数据治理与政策
四、 大数据与数据科学的主要课程内容
1、概率论与数理统计
数理统计的基本概念、抽样分布、参数估计、假设检验
2、多元统计分析
多元正态分布;聚类分析;判别分析;主成分分析;因子分析;对应分析;Logistic回归模型、偏最小二乘回归模型等。
3、微积分
基本的微积分概念、计算原理
4、线性代数
基本的线性代数概念、计算原理
5、时间序列分析
时间序列的基本概念、基本原理、基本方法、定量分析
6、程序设计/数据结构
编程语言(Python或R、C或Java)、主要的程序结构、基本的数据结构、常用算法
7、计算机系统基础
计算机系统架构的基本概念、常规信息系统的基本架构、主要的数据传输方法、数据解析和信息抽取技术
8、大数据导论
Hadoop大数据的基本概念、大数据分析基础、大数据挖掘基础、大数据可视化技术基础、大数据存储技术基础、大数据安全技术基础、数据科学基础、大数据与crm等
9、Hadoop大数据技术
Hadoop生态,介绍Hadoop的安装和配置,Hadoop的组件包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识
10、分布式数据库原理及应用
介绍分布式数据库的原理和应用,以及当前大数据行业主要的非结构化的数据库,内容包括分布式数据库设计,分布式查询的分解与优化,事务管理,分布式并发控制,分布式数据库管理系统的可靠性,数据复制等分布式数据管理技术的经典内容
11、数据建模分析
介绍数据挖掘/建模的主要流程以及除算法外的其它建模重点,包括数据探索性分析、建模(具体的建模算法放到数据挖掘课程)、实验设计、评估方法等
12、数据仓库与数据挖掘技术
经典以及最新的数据建模分析技术研究成果,如小波分析、Rough分析、蚁群分析、分形技术、Agent、进化算法、分/聚类分析、非结构数据的挖掘、离群数据挖掘。(分两个重点方向:算法设计原理和算法应用)
13、数据可视化技术
从人、数据、可视化流程等三个层面阐述数据可视化的基础理论和概念;针对实际应用中遇到的不同类型的数据,包括时空数据、地理信息数据、高维非空间数据、层次和网络数据介绍相应的可视化方法;介绍可视化综合应用及实用系统
14、大数据分析与内存计算
Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容;应用角度讲解了一些简单的、有代表性的案例
15、商业智能方法与应用
介绍商务智能的基本概念、主要功能、系统架构,以及数据分析和数据管理的主要方法和技术,包括数据仓库、在线分析处理以及数据挖掘的建模、分析和评价方法,涵盖多维数据模型的建模、多维分析方法以及各种知识发现方法等
16、大数据管理与创新
介绍大数据管理的基本理念、方法、流程以及如何建立相关的数据团队,并对创新的数据管理提供一些思考方向
17、大数据治理与政策
介绍大数据的发展对社会治理的作用、影响以及相关的政策法规、从业者的相关道德要求等
面对具体的专业方向开设相关的数据应用课程或讲座应用比如:
18、模式识别/计算机视觉:介绍非结构化数据在模式识别、图像识别等方面的处理技术和原理等;
19、自然语言处理/知识表示/推理:介绍文本型数据在智能系统中的处理和表示技术及原理;
20、大数据与城市规划:介绍数据治理在城市规划中的具体应用和相关的技术原理等;
21、大数据与金融、大数据与供应链分析、大数据与营销……..
针对不同的人才培养方向,给学生提供不同的选课标准和方法,大致建议可以按照如下的几个方向选课:
方向: 大数据应用分析师
核心选课(编码): 1/2/3/4/5/6/7/8/11/15/16/17
深入学习课程(编码): 11/15/20/21
方向: 大数据系统工程师
核心选课(编码): 1/2/3/4/5/6/7/8/9/10/11/12/13/14/15/16/17
深入学习课程(编码): 9/10/12/11/13/14
方向: 大数据算法研究员
核心选课(编码): 1/2/3/4/5/6/7/8/9/10/11/12/13/14/15/16/17
深入学习课程(编码):1/2/3/4/5/6/12
六、 培养方向与课程体系设置讨论
1、大数据:大数据的课程偏向系统工程师以及算法研究员,偏计算机的知识更多,如果结合非结构化数据的处理技术(自然语言、计算视觉、语音等),这块内容更有点偏向人工智能的课程,成果强调的是智能化的产品和设备;
2、数据科学:数据科学的课程更偏向统计、优化,更强调的是一种优化、实验、迭代、分析等建模的思维,同时结合行业应用的深度更强。所以单纯从数据科学这个角度来看,主要的核心主要包括:
1、清华大数据研究院—数据科学课程体系
2、香港中文大学---数据科学课程体系
必修课
1.统计学理论
2.机器学习
3.数据挖掘入门
4.时间序列分析
5.数据库原理与开发
选修课
1.应用回归分析
2.应用多元方法
3.贝叶斯分析入门
4.数值算法分析
5.人工智能
6.优化理论入门
7.信息论及编码
8.图像处理与计算机视觉
9.分布式系统入门
10.应用并行编程
11.大数据建模与管理
12.网路数据分析
13.数据驱动实验设计与衡量
14.数据可视化入门
15.运营管理与分析
16.市场营销管理与分析
17.金融分析
18.经济分析
19.创新设计思考方法论
3、国外典型数据科学专业及其特色课程
学校: 加州大学伯克利分校
学位名称: 信息与数据科学硕士
特色课程: Master of Information and Data Science
学校: 约翰·霍普金斯大学
学位名称: 数据科学理学硕士
特色课程: Master of Science in Data Science
学校: 华盛顿大学
学位名称: 数据科学理学硕士
特色课程: Master of Science in Data Science
学校: 纽约大学
学位名称: 数据科学理学硕士
特色课程: MS in Data Science
学校: 斯坦福大学
学位名称: 统计学:数据科学理学硕士学位
特色课程: http://M.S.in Statistics:Data Science
学校: 卡内基梅隆大学
学位名称: 计算数据科学硕士学位
特色课程: Master of Computational Data Science
学校: 哥伦比亚大学
学位名称: 数据科学理学硕士
特色课程: Master of Science in Data Science
学校: 伦敦城市大学
学位名称: 数据科学理学硕士
特色课程: MSc in Data Science
欢迎关注微信公号:数联未来(zycnb1)