数据中台一词现阶段很热,金融行业、互联网行业、制造行业等等都在讨论数据中台的建设,分享一下券商行业的数据中台建设。
首先,我们为什么要建设数据中台?
从业务角度看,数据中台在发展过程中,面临着以下挑战:
第一,烟囱建设。虽然券商和银行的体量差距较大,但日常运营系统规模却相差无几,从安信证券来看,我们现有系统大概 200 多套,功能俱全。但从数据角度看,缺少共享数据模型和规范,包括指标、口径等,数据重复存储,导致资源浪费;
第二,数据孤岛。这个问题和烟囱建设密切相关,因为数据分散在各个系统内,无法有效整合打通,数据割裂严重,很难做统一的分析与统计,难以发挥全域数据的价值;
第三,需求响应慢。为满足业务场景需求,需要从多个系统里进行数据采集,再做复杂的转换加工,缺乏底层工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环;
第四,缺乏沉淀积累。大数据开源组件众多,更新迭代快,安装部署维护使用的技术门槛高,证券场景复杂,无法做到技术、业务、人才的积累。
然后,从数据技术架构的演变历程来看,数据的发展有着清晰的脉络。
关系数据库建立初始仅是底层数据库存储计算最基础的一个部件,不管是数据分析还是报表功能,都是作为业务系统的附属功能或者一部分而存在;九十年代数据仓库概念提出之后,业务系统与管理系统逐渐分离,并陆续出现了专门为 OLAP 场景打造的专用数据库产品。
自 2005 年,互联网海量数据处理加工引发技术革命,以 Hadoop 开源生态为基础的大数据技术栈兴起,数据湖成为数据存储加工的主要方式;直至近两年,数据逐渐从业务过程的“副产品”转变为“本身即业务,本身即服务”, 厚中台、薄前端的理念才开始被业界认可。
其次,在我的理解中,数据中台包括 4 个部分的内容:
第一,方法论。涉及大中台、小前台、业务数据化、数据业务化等一些概念,也包括现在常用的建模的理论等。
第二,组织。建设数据中台需要有专业的数据团队,若单纯依附于业务团队是不靠谱的,如果一个企业没有专业的数据中台的团队,那么这个数据中台一定是建不成的。
第三,工具链。如果只讲方法论是没有办法落地的,因此,所有的方法论都需要有对应的工具平台做支撑推动其落地,这里面包括最基础的底层大数据平台,包括任务调度工具、数据服务、自助查询分析工具等。
第四,运营。也就是数据的运营,偏向于数据治理、从源头做全生命周期的数据治理。