原文发布日期:2020.05.23
欢迎关注公众号:Kai写了(ID:Kai_economics)
文:小明* 恺叔
*特约作者,LSE法律与会计学硕士,目前于某技术公司任项目财经经理及集团数据分析师。
目录
一、什么是数据中台?举个例子告诉你
二、数据中台谁来建?那得看谁能真正“拥有”数据
三、数据中台如何建?IT与业务BA的通力合作
四、建设中台有何好处?节约成本+提升创造力
五、如何评价一个数据中台?四大维度
“数据中台”对很多人而言是一个陌生词。当被问到“什么是数据中台”时,我都会迟疑一下,因为这个问题特别难回答,目前业界没有一个明确的概念。所以,不如我们先来看一个数据使用的例子:假设一个学校想记录学生们的学业能力,我们可以用两种方法:
方案一:建立一个巨大无比的表,一个人一条记录,这个记录可能有1000列,涵盖了不同学科。
方案二:建立不同主题的表,每个表既独立又关联,他们之间通过学号进行关联,同时每个表可以独立地进行拓展,比如英语表可以增加英语听力、英语口语等更多内容。
你觉得哪种方式更好?
我们认为方案二更好。首先,方案一的“大表”其实可以通过加工方案二的几个“小表”得到。其次,我们认为方案二的“可拓展性”更强,因为每个独立表后面都可以增加信息,后续可以根据不同需求进行多次“拼接”。第三,从存储和管理上看,维护几十个只有20列的表比维护一个1000列的表更简单、成本更低。所以简单来说,“数据中台”用到的就是上述“方案二”的理念。通过中台,用户可以在一个平台“拖拉拽”几个小型表,通过一个或者多个字段关联,根据需要形成自己的分析模型,以实现之后的数据分析和数据消费目的。当你打开手机淘宝APP,里面是不是有天猫、淘鲜达、阿里拍卖好多小程序?他们使用起来也没什么感知上的差异,可以无缝切换,只不过里面汇聚的商品类型不太一样。我们消费者可以按照需求在不同的小程序间切换,比如买菜去淘鲜达,买电子产品去天猫,买地去阿里拍卖。消费者获得了极大的方便,而同时,我们在不同场景下购物数据也给后面阿里的分析与广告精准投递做了贡献:基于消费者行为的每一条数据都被打上了标签或者说在一个单独数据表中维护了新的信息,比如买菜被打上家庭主妇的标签,买电子产品被打上科技爱好者的标签,司法竞拍被打上高价值客户的标签。在阿里内部,这些不断刷新的信息并不是封闭管理在各个小程序之间,而是在阿里中台实现共享并被继续加工、分析、复用,滚雪球式地实现未来的商业价值,这也是“数据中台”的功劳。
用更专业的话来说,数据中台是一个数据仓库,介于底层海量数据湖(“后台”)和用户界面消费(“前台”)之间,像一个有规则的“货架仓库”。其建造目的是为了节省成本和激发下游用户创造能力,最终实现效率提升与价值增值。数据中台的模型可以简单表示为:
中台建立于大数据(海量数据)之上,因此中台的建造者只能是海量的基础大数据“拥有者”。(鉴于可能涉及隐私保护法,换个词说就是数据的合法占有者和受益者。)
这里有一个很有意思的问题:谁是数据的拥有者?是数据的产出者,还是数据的收集者(或叫被转移者)?举个例子,一个消费者(个人或者组织)本身有自己的一些属性(例如姓名、年龄等),并在活动时创造了新的数据(比如买东西时产生了消费对象、消费价格和消费数量等)。那么谁有这些数据的所有权呢?
为了更好地定义“所有权”,这里有四个关键词:占有、使用、受益、处理。
一个数据产出者是否拥有上述权利?假设屏幕前的你,就你的一次购买行为记录而言,你本人(作为数据产出者)对这条记录自然有占有的权利(你记得这个事情什么时间做了什么,无论是什么形式的记得,脑子里记着或者笔记本上记着都行),也有使用的权利(无论什么时候你都可以回忆一下或者去翻一下记录)。但是对于数据的受益和处理,我们可能就要打个问号了。就受益而言,仅一条很普通的数据,你好像难以对它做什么以获得巨大的利益;就处理而言,当你觉得你理所应当能处理自己的数据,可惜事实是,你甚至可能都没有办法把它丢弃,因为它更像是一个事实。比如你的性别、你的名字、你购买某个东西的东西。更糟糕的是,你可能都无法按照自己的意愿对其进行“解释”,它就那样存在你的脑海里面并被社会普遍认可与接受的理念解释着:什么是性别,什么是时间,什么是商品……
接下来,我们讨论数据的收集者是否可能有这四大所有权:例如一个淘宝卖家:占有——他可以通过与平台和用户之间签订协议,合法拿到买家的消费数据;使用——他可以获得授权加工这些数据,知道哪款产品最受欢迎;受益——他可以通过统计和分析,了解消费者喜好,举办相应的促销活动,扩大销售额和利润;处理——他可以从存储上删除所有的内容,之后这些消费者数据自然就消亡了(不会存在数据产出者“忘不掉”的尴尬)。
因此,从海量数据的角度,我们认为数据收集者有更为完整的数据“拥有权”,因此他们也更有可能去建设数据中台。
此外,建设数据中台的另一个前提是该数据收集者拥有足够多(海量)的数据。那么怎样的数量级才可以说是“海量”呢?这是个原则解释(principle based materiality)问题,不可用统一的量化标准界定,需要多方考量、具体问题具体分析。举个例子,在H公司某一个小的领域其中的一个数据分析模型可能一个月份数据调度一次会有7000万条,如果把一条数据打碎拆分成若干个独立片段(一个小的属性或者小的指标,假设40个)那可能就是7000万*40=280000万个片段,这算是海量了吧?可是这又仅仅是一个月的数据,对于年度或五年十年的决策而言,其所包含的信息可能并非“足够”。所以,我们需要更多方法来判断数据是否海量。首先,我们可以借助统计学中的概念来界定怎样规模的样本数据才有代表性或者显著性。其次,它取决于数据资源的稀缺程度和数据的完整程度。最后,可以从收益性的角度来看,只要它可以给收集者带来足够的经济利益,那也许就意味着这样的数据量已经“足够”。
一个淘宝卖家该如何建立“数据中台”呢?我想他必然需要具备两方面能力,一是一定的“技术”水平,也就是至少得会用一些数据处理软件吧;二是一定的业务能力,也就是至少得知道哪些数据是“有用的”。
在现实社会中,一般都是组织或者公司来建立中台,而后端的消费者只是局部地使用一些数据进行分析。但同理,对于一个大型数据收集者而言,数据中台需要“两拨人”通力合作,他们是IT与业务BA(商业分析)部门。
首先需要说明一点,他们大多数都是复合型人才,就像一位淘宝卖家即懂点电脑也懂点营销。但在大公司中,他们又各有侧重,一个更擅长IT,另一个更精通业务。如果你是大神,你当然可以身兼两职。但是在现实中,能建中台的海量数据收集者一般都规模庞大,对这样的组织而言,一般没有员工可以理解全部的IT产品知识、或者全部的业务,因此通常IT与业务BA是分开的两拨人。
他们的具体职责是什么?我们先从中台建设的成本与收益说起。成本方面,数据存贮是有成本的,数据存贮的物理介质有空间限制(一块硬盘是不是用一点少一点?它的存储容量是有限的);数据管理也存在大量的可变成本(要耗电,要大量人员去运维、修改编辑等)。那无疑IT就是这方面的专家,他们界定怎么用少的空间去存储这些数据,怎么样划分数据才能在以后高效地找到并利用数据。所以IT人员的第一个任务是节约成本、提高效率。其二,他们是设计方案的具体执行者,需要清楚删除或者修改一条数据会对其他数据产生怎么样的影响。形象一点说,IT是中台这个大房子的工程师(木匠、瓦工),房子根本质量的好坏取决于这些可爱工程师的能力和眼光。
另一个角色,业务BA,他们就是中台大房子的“设计师”了。这个中台未来有没有价值,很大程度取决于业务BA的能力。一个BA好不好,首先看其能不能精准地抓住大多数用户的痛点(对购买者或者用户而言用着爽不爽)。你的房子设计得好不好,也要看其是否能满足更多用户需求,不论是即时的还是潜在的客户,如果业务BA都能满足其需要,这个房子就会像一个很赞的“酒店”,不仅能满足业主的喜欢,也能接待更多的“旅客”。
你可能会问,一个组织的业务有那么多领域,那区区一个领域的业务BA能满足其他领域的需要吗。比如H公司可能有涉及20个业务领域,那20个业务领域的20个业务BA互相割裂怎么办?我们认为,中台建设中非常重要的一点,就是要“留口子”。这个口子就是通道的入口,可以和其他业务产生互通。就像航空公司各自为家,但是他们又各自属于某个航空联盟(例如星空联盟、天合联盟等),这些业务又可以互相打通,从而为这个联盟或者说这个大的组织创造价值。
我们认为建设中台的好处主要有两方面:节约成本和提升创造力。
为什么可以节约成本?多建设一个中台不是增加成本吗?
答案是,短期来看增加成本,长期减少成本。因为当中台这个有规则的货架建设好后,它可以无成本地复用,边际成本基本为0。
回顾我们的模型,如果没有中台会怎么样?对大多数小型组织、或者很多没有提前预埋中台的大组织,会发生什么?现实生活中很多组织运行时,是依靠一个个项目从建立到运维到闭环这样反复循环进行的,所有项目同时上线。例如,假设一个A公司同时要上线X、Y、Z三个APP项目,每个项目投入的固定成本为30万(包括支付系统10万、存货系统10万、广告投放系统10万),则三个项目就是30*3=90万的开支。同时,还需要考虑未来每个项目个性化的改善与运维,假设每个项目10万,那又要另外再付出3*10=30万。最后全周期下来就是120万。这就是典型的“烟囱式”管理,每个项目都饱和匹配资源,开足马力,独立运维。
那如果有了中台会怎么呢?对于三个项目的相同点,像支付系统、存货系统、广告投放系统,他们大量的功能是有重叠的,所以我们可以把它标准化收口到中台设计管理,最后产生三个系统成本(10+10+10=30万)。对于三个APP的不同点,我们需要在中台中开发一个规则模块或者知识模块(例如三个APP目标针对的是老、中、青三种不同客户,我们需要一个不同用户的“判断标准”,那这个标准就需要存储在这个规则中心,它可以灵活配置与修改,所有数据经过这个规则中心就自动分类到三个APP里),设其成本为10万。另外加上中台后期运维成本10万。那全周期算下来是不是才50万?我们节约了成本!另外后期如果有新的项目要进来,只需要在规则中心配置新的规则就好了,这部分成本可以忽略不计,因此它节约成本的同时也方便了我们的运维。
为什么可以提高创造力?
如果我们看人脑,一个富有创造力的人的大脑往往神经元之间有非常多的突触,也就是脑细胞之间有很强的连接关联能力。数据中台也是这样的,各个数据资产或者模组之间有极强的关联能力,从而生成无数种排列组合的方式,对应的收益能力无穷大。例如数据中台开放了标准化的多种基因片段(数据资产宽表),他们之间关联组合之后就会产生新的生命(业务价值)。
举个具体的例子,过去H公司财经领域从底层数据湖(交易数据)抓数,再开发无数张定制化前台报告(比如合同报告、回款报告等),用户需要手动下载,然后自行“vlookup”、各种匹配分析。由于各个报告互相独立,整个下载加工环节耗时冗长易出错。有了中台之后,各个数据湖(交易数据)全部按照一定规则组合成了模块(资产表),然后各个模块全部上线。用户想要做一个看板,只需要调用各个模块,任意组合,就可以建立一个自己的模型方案(比如新的APP或者新的报告)。这个模型可以利用可视化产品(比如Tableau、Power BI),形成无数种展现形式(报告、大屏、卡片等)。且数据可以实时刷新,避免了后续手工作业环节。
总结而言,打个比方,过去这些报告的建设叫“IT把菜做好了端上来给用户吃”——个性化不强。现在是“中台建好了菜市场,用户自己买菜做饭”——灵活多变。不同的用户有不同的厨艺、不同的想法,自然能产生更多的“新菜式”,这就是创造力提升的表现。
我们可以从以下四个维度评估和检测一个数据中台的表现:
(1)互联性(开放程度)——每个维度是否足够开放,能否与其他资产或者模组(数据资产组合包)产生连接。一个好的中台,里面的数据资产各个字段连接性决定了可能性。
(2)性能(容量与速度)——每个模块或者资产能否贮存足够多的数据、并且快速响应。这个同时考验基础设施的能力(硬件)和IT的规划能力(软件)。
(3)可监控性——数据的访问情况、调用情况、权限管理都要考虑是否可以监控或者量化,为定价或者运维做支撑。
(4)可理解性——用户能否直观地理解资产或者其中字段的内涵,关系到数据中台里面的数据资产是否能满足数据消费。(回到开头的例子,比如你开放“数学表”和“语文表”,用户是否能明白数学表里面是什么、语文表里面是什么,最终实现了解学生学业能力的目的。)
结语:说了这么多,相信大家对数据中台有了基本认识。数据中台好像说起来容易,但其实是一件极其复杂和专业的事情。而其背后,还涉及很多个人隐私、数据使用权、国家安全等伦理与法律的讨论。未来,中台的架构性理念很可能伴随“云”、“大数据”、“5G”、“AI”等新技术的发展而衍生出更多应用,释放出更多“数据”的价值。让我们一起期待,世界因数据而改变。