2019是数据中台的元年,但是数据中台为啥突然火了?
数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。
数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个平台,阿里称之为“共享服务平台(Shared Platform as Service,SPAS)”。SPAS采用的是基于面向服务的架构SOA理念的 “去中心化”的服务架构,所有的服务都是以“点对点”的方式进行交互。阿里之所以选择“去中心化”的分布式服务架构,主要是考虑到扩展性。
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。
数据中台跟之前大数据平台最大的区别,在于数据中台距离业务更近,能更快速地响应业务和应用开发的需求,可追溯,更精准。
数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
数据中台是建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。而多数的传统数仓工具都是建立的单机的基础上,一旦数据量变大,会受单机容量的限制。
“数据中台”一般包含以下几个部分:
数据中台解决的问题可以总结为如下三点:
这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。
数据中台的出现,解决的是数据存储、连通和使用中所遇到的种种问题,如数据孤岛、数据治理、数据共享等等。
通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务。
与传统数据库相比,数据中台还有一个重要的优点:提升人及其组织的生产效率。
数据中台最初诞生的初衷是解决组织膨胀所造成的效率下降问题。具体业务的开展需要技术、产品、市场等各个方面的支持,对于大型公司来说,这些基础支持工作会有很大程度上的重复。部门内部、部门间的协调颇为耗费精力,不仅信息无法共享,资源也会被浪费。
一个数据全面、技术能力过硬、可以统一调用的数据中台,能够为业务线提供统一支持,同时帮助企业精简业务团队配置,实现「扁平化」。管理效率和组织运作效率都可以得到提升,业务也更敏捷灵活。
Data API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。
数据中台的核心理念在于“数据取之于业务,用之于业务”,即它相比于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
概括地说,三者的关键区别有以下几方面:
数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。
数据中台建设面临的挑战包括:
数据中台团队通常需要包含以下角色:
从以上三点,我们可看出数据中台依托的是企业的内外部的业务需求驱动,自身创新挖掘以及根据业务场景进行驱动创新来赋能业务应用,这个过程是一个循环的过程,需要将这种过程资产形成经验积累下来,以此更好的打造数据中台的适应能力。
相关资料: