数据中台(Data Middle Office)是数据的治理、连接、共享的数据工厂。
数据中台是企业提高数据要素利用效率的内在要求,它源于数据平台,又发展于数据中台。
本文尝试从宏观视角,用逻辑来推导数据中台的原理、方法论,构建数据中台的知识体系。
首先,回顾了社会发展趋势、数据、大数据、中台等基础知识,并尝试给出数据中台的概念,而且与数据仓库、数据平台、数据中心、数据湖进行对比,指出它们之间的区别;
接着,从生产资料、生产力、生产关系等三个方面介绍了数据中台的原理;
然后,尝试给出数据流、商业流、价值流等数据中台建设的方法论;
最后,对数据中台进行总结,指出数据中台的本质、数据中台的假设,数据中台的局限,以及数据中台的发展趋势。
本文的主要目录如下:
1. 数据中台基础
1.1. 社会发展趋势
1.2. 数据
1.2.1. DIKW 模型
1.2.2. 数据的定义
1.3. 大数据
1.3.1. 大数据特点
1.3.2. 大数据思维
1.4. 中台
1.5. 数据中台
1.5.1. 数据中台 VS 数据仓库
1.5.2. 数据中台 VS 数据中心
1.5.3. 数据中台 VS 数据湖
2. 数据中台原理
2.1. 生产资料——数据要素
2.2. 生产力——数据技术
2.3. 生产关系——数据组织
3. 数据中台方法论
3.1. 数据流架构(互联网企业)
3.2. 商业流架构(传统企业)
3.3. 价值流架构(创新企业)
4. 数据中台总结
4.1. 数据中台的本质
4.2. 数据中台的假设
4.3. 数据中台的局限
4.4. 数据中台的发展趋势
接下来,让我们一起走进数据中台的世界,去探讨数据中台的原理和方法论。
1.1. 社会发展趋势
社会正往智能化方向发展,比如智慧交通(智能交通)、智慧企业(智能企业)、智慧经济(智能经济)等等。
智能化是信息化的高级阶段,习惯上把它称为信息化3.0,而且数字化、网络化和智能化呈融合发展新态势。
在这种大趋势下,互联网企业面临智能化转型;传统企业面临数字化转型。
1.2. 数据
在数据中台之前,我们先看看什么是数据?
计算机发明以后,计算机成了数据的主要载体,数字化数据也成了数据的主要形式。
1.2.1. DIKW 模型
基于 DIKW 模型,数据是信息、知识、智慧的基础。
详细可参考论文:Rowley, Jennifer (2007). "The wisdom hierarchy: representations of the DIKW hierarchy". Journal of Information and Communication Science. 33 (2): 163–180.
1.2.2. 数据的定义
国际数据管理协会(DAMA)、国际标准化组织(ISO)等组织给数据的定义如下:
个人觉得,GB/T 35295-2017 《信息技术 大数据 术语》的定义更好。
数据是信息的可再解释的形式化表示,以适用于通信、解释或处理。
1.3. 大数据
数据时代,我们说的数据更多是大数据,那么什么是大数据呢?
Gartner、麦肯锡等组织从不同视角给大数据定义如下:
梅宏院士认为:“大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析”。
什么是大数据?
大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。
1.3.1. 大数据特点
大数据有多类型、大容量、快变化、低质量、可变性、真实性等特点。
所以,数据中台的建设要考虑大数据这些特点。
1.3.2. 大数据思维
维克托迈尔舍恩伯格在《大数据时代》中认为大数据思维是全量思维、效率思维、相关性思维。
所以,数据中台构建也要有这些思维:整体观、效率观、相关性观。
接下来我们先看什么是中台。
1.4. 中台
中台是企业级能力复用、支撑平台。为什么?可以参考我的另一篇文章:
复用体现在统一和共享;支撑体现在实时、在线。
接下来我们再看看什么是数据中台。
1.5. 数据中台
Gartner 认为:“数据中台是一种组织战略,使组织能够有效地使用后端生成的数据,使前端用户做出统一的可视化决策。构建数据中台的最简单方法是,公司如何管理可组合和可重用的数据和分析(D&A)功能,以交付不同的数字操作,并通过其技术堆栈将它们连接到整个价值链。“
车品觉在《数循环》中认为:“从宏观角度看,数据中台是一种全新的思维方式,是一种推动同一个数据生命周期内的数据进行聚合、治理、应用所衍生的管理和技术框架。“
个人觉得:数据中台是数据的治理、连接、共享的工厂。
1.5.1. 数据中台 VS 数据仓库
数据仓库是在数据准备之后用于永久性存储数据的数据库。
二者一个很大的区别,数据中台要求实时性,但数据仓库对实时性没有要求。
1.5.2. 数据中台 VS 数据中心
数据中心是由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件、信息资源(数据)和人员以及相应的规章制度组成的组织。
二者一个很大的区别,数据中台是一个企业的全局部门,而数据中心更多的是一个职能部门。
1.5.3. 数据中台 VS 数据湖
数据湖(data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统。
二者一个很大的区别,数据中台是全部数据存储、治理、连接、共享等,但数据湖仅仅是个存储系统。
生产力决定生产关系;生产关系反作用于生产力。
数据中台统一数据要素、数据技术、数据组织。
2.1. 生产资料——数据要素
数据也是生产要素,大数据是重要生产力。
首次明确将数据与土地、劳动力、资本、技术并列为五大核心要素。
五大生产要素:土地、劳动力、资本、技术、数据。
数据社会的四次社会化大分工如下:
早期计算机产生时,软件和硬件是一体的,后来软件从硬件分离。接着:
数据要素价值化包含数据资源化、数据资产化和数据资本化三个关键阶段:
2.2. 生产力——数据技术
物联网、云计算、大数据、人工智能、区块链是重要的数据技术。
2.3. 生产关系——数据组织
战略定方向,制度立共识、管理控执行。
数据中台是数据要素、数据技术、数据组织的工厂。
数据中台建设模式可以分为三种:数据流模式、商业流模式、价值流模式。
3.1. 数据流架构(互联网企业)
当前大多数数据中台建设大多按照数据流动模式(采集 ——> 存储——> 管理——> 使用)建设数据中台。
3.2. 商业流架构(传统企业)
按商业模式串联数据或许也是数据中台的一种模式。
3.3. 价值流架构(创新企业)
价值流模式或许是未来的一个趋势。
尝试给出构建数据中台的方法:
4.1. 数据中台的本质
数据中台的本质是数据工厂。
4.2. 数据中台的假设
数据中台的假设是数据要素分离。
4.3. 数据中台的局限
局限一:建设周期长;
局限二:天然的利益斗争的牺牲品和背锅侠;
局限三:适合组合创新、微创新,不适合颠覆式创新。
4.4. 数据中台的发展趋势
Gartner 认为数据中台现在处于泡沫期(Peak of Inflated Expectations)。
参考文献:
数据中台是一种思维,也是一种技术框架,也是一种组织管理方式。实际中,企业要从实际出发,结合战略规划,切入数据中台。
数据中台实现数据的治理、连接、共享,是企业的数据基础设施,也是企业数字化转型的重要手段。
数据时代,数据中台是一个很好的载体,驱动企业的生产创新。
由于个人的经历、能力和水平是有限的,我的可能是片面的,也可能是错的,这里抛砖引玉。
理论本身是务虚的,需要实践、实践、再实践。
你的反馈,正的负的都是有价值的,有助于我加速迭代升级——更深入、更全面。
你可能会有更好的理论、实践案列,欢迎在评论区留言,咱们一起讨论。
上一篇:阿里“拆”中台是真的吗?
下一篇:也说电网资源业务中台